Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小红书/【Ace顶尖实习生】交互式进化审核 Agent 系统研究
Xiaohongshu logo
X
小红书 (Xiaohongshu)

职位信息

北京市 / 上海市 / 浙江省-杭州市
无经验要求
实习生
仅现场办公
本科
实习/见习

标签

算法强化学习内容审核大模型在线学习小样本学习Agent系统
💡

核心评价

小红书顶尖技术实习,前沿AI研究导向,成长空间巨大,薪资具备竞争力。

【Ace顶尖实习生】交互式进化审核 Agent 系统研究

🤖 AI 估测:¥6K-12K

发布时间:29 天前

立即应聘

ℹ️关于这个职位

这是一个专注于前沿AI技术研究的实习岗位
你将参与构建一个交互式进化审核Agent系统,旨在通过‘教学-纠正’闭环,让AI模型在复杂多变的国际化内容审核场景中实现自主学习和策略优化
核心工作是探索如何将抽象的审核政策自动化解析为可执行的Agent策略,并利用强化学习等技术解决小样本冷启动等难题

✓工作职责

工作职责 本课题旨在探索一种基于‘教学—纠正’闭环的交互式进化审核 Agent 系统,致力于打破传统审核模型对静态规则与大规模标注样本的依赖,实现‘规则—策略’的自动生成优化反馈闭环
不同于通用 Agent,该系统强调在复杂、多变的国际化内容审核场景中,通过引入 Policy Maker 的实时干预与 Rule Set 的动态反馈,实现从‘规则驱动’向‘智能进化’的范式迁移
研究核心在于构建一套集成经验进化学习、在线学习及 RLRF(基于反馈的强化学习)的复合技术架构
关键问题包括:如何将抽象的审核政策(Policy)自动化解析为可执行的 Agent 策略链路,如何在跨语言、跨文化背景下构建具备自主学习能力的 Agent 基座,以及如何在极度稀疏的违规样本中利用小样本(Few-shot)实现风险域的‘0 人审’冷启动

⭐最低要求

不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先
优秀的代码能力、数据结构和基础算法功底,熟悉Python等至少一门编程语言
熟悉大模型领域尤其是强化学习相关研究工作和算法,有大模型强化学习的研发基础
良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步

👍优先资格

在ICML/CVPR/NeurIPS/ACL等顶级期刊会议上发表论文者优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • AI产品运营实习生

    小红书

    上海市 · 仅现场办公

  • 点点AI运营实习生 · AI图像创作

    小红书

    上海市 · 仅现场办公

  • AI Agent算法工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】OLAP研发工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】Ray研发工程师

    小红书

    北京市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公