面向有道词典、词典笔、学习规划/小P老师等产品线,负责 Agent 能力的整体方案与核心算法研发,包括任务分解、计划-执行/反思循环(Plan-Execute / ReAct / Reflection)、长短期记忆与工具路由等
负责 SLM(Small Language Model)持续预训练与指令微调(SFT),构建高效压缩与蒸馏方案,面向端侧/低延迟场景优化推理效率
设计与实现工具调用(Function/Tool Calling)体系:工具编目与路由、参数填充、结果验证与回退、调用链追踪与可观测性,提升工具使用的成功率与收益
基于强化学习(PPO/GRPO/DPO 类方法等)与奖励建模,面向语义理解、工具使用成功率、内容生成质量等目标进行对齐与优化,支持离线/在线策略迭代
负责 RAG 链路中的辅助模型研发与优化:统筹文档解析与检索排序能力
针对复杂排版内容(如学术论文、教辅、试卷)进行版面分析、OCR、表格/公式识别的模型微调
同时负责语义检索(Embedding)、重排(Rerank)及学习排序(LTR)模型的迭代,为 Agent 提供高质量的结构化数据与精准的上下文
负责大模型全链路的数据工程与处理:主导高质量数据的合成(Synthetic Data)、清洗、去重与治理
构建并优化用于 SFT、对齐及评测的数据集(如工具调用轨迹、复杂推理过程数据等)
设计策略采样、难例挖掘与失败案例回放的反馈闭环
建立系统化评测体系:离线基准(理解/工具成功率/可用性)、端到端任务评测、A/B 实验与线上指标监控,推进效果持续迭代
推动工程化落地与跨团队协作:负责训练管线并行、推理服务化与端侧加速
与产品、工程团队紧密配合,推进算法落地,持续提升用户体验与业务指标