通用Agent方向:
探索模型通过 RL Scaling 等方式使用成套工具解决复杂问题的行动和规划能力,包括 Human in the Loop 多轮交互下 Agent 基础建模的新方案、以及与复杂环境的交互学习能力
探索模型在 Non-Rule Based Outcome 场景下利用复杂信息进行有效推理的范式,包括 Proactive Agent 的建模方案
探索研究更多内在奖励的机制,从而激发模型主动学习和自我更新的能力
探索构建长期记忆机制,为下一代高效的推理模型、长序列推理及建模提供基础
搜索Agent方向:
参与通用AI搜索中Agent的框架建设和算法优化,并能在实际业务场景进行落地
探索指令微调、偏好对齐(RLHF/DPO)和LLM Reasoning(如思维链、多步推理)在AI搜索场景的应用,特别是提升复杂搜索能力(如Deep Research)
构建端到端Agent优化系统,将意图识别、推理规划、工具调用、信息检索和结果生成等步骤联合优化,探索大模型AI搜索Agent的智能上限
研究AI搜索Agent的自动评测标准和方法,构建公平、合理并且全面的评测系统加速Agent迭代
跟踪大模型和搜索最前沿的技术,包括但不限于多模态、Scaling Law、训练范式探索、长文本优化、高效训推框架探索
安全方向:
负责LLM、VLM通用大模型与垂类大模型的内容安全研发,提升模型识别风险、规避风险、处置风险的能力
负责通过定性、定量方法评估策略表现,进行策略迭代更新,不断提升内容安全效果
深度参与大模型、安全、算法等领域的调研,结合通用模型的新技术、新场景,如LongCoT、Agent、GUI,积极探索相应新技术、新场景上,安全方案的创新和落地