工作职责 本课题旨在探索一种基于‘教学—纠正’闭环的交互式进化审核 Agent 系统,致力于打破传统审核模型对静态规则与大规模标注样本的依赖,实现‘规则—策略’的自动生成优化反馈闭环
不同于通用 Agent,该系统强调在复杂、多变的国际化内容审核场景中,通过引入 Policy Maker 的实时干预与 Rule Set 的动态反馈,实现从‘规则驱动’向‘智能进化’的范式迁移
研究核心在于构建一套集成经验进化学习、在线学习及 RLRF(基于反馈的强化学习)的复合技术架构
关键问题包括:如何将抽象的审核政策(Policy)自动化解析为可执行的 Agent 策略链路,如何在跨语言、跨文化背景下构建具备自主学习能力的 Agent 基座,以及如何在极度稀疏的违规样本中利用小样本(Few-shot)实现风险域的‘0 人审’冷启动