工作职责:
大语言模型后训练与迭代
●在真实业务数据与线上反馈驱动下,设计并实现大语言模型的后训练方案,包括 SFT、RL,以及其他蒸馏方案等
●围绕目标场景(理解、分类、生成、抽取等)持续优化模型能力与泛化表现
强化学习训练策略与算法实现
●参与或负责 GRPO、GSPO、DAPO 等强化学习算法在多模态/LLM后训练中的落地
●可以在不同场景下,设计不同的奖励模型/打分器(Reward/Preference),优化采样、优势估计、KL约束与训练稳定性,提升对齐质量与可控性
蒸馏与轻量化落地
●探索 教师-学生蒸馏、偏好蒸馏、数据蒸馏、logits/hidden states蒸馏等方法,在效果与成本之间做权衡
●支持模型在推理侧的效率优化(吞吐、延迟、显存),配合业务达成线上成本指标
●需要有技术敏感性,在该方向上可以进行前沿研究的探索
训练工程与平台化支持
●基于 LLaMA-Factory、EasyR1、Verl等训练框架完成数据流水线、训练配置、实验管理与复现
●与数据、产品、工程团队协作,建立“数据—训练—评估—上线—反馈”的闭环体系
评测体系与问题分析
●建立或维护离线评测集与线上A/B策略,定义指标(有效性、鲁棒性、安全性、可控性等)
●针对badcase进行归因分析(数据分布、奖励偏置、过拟合、幻觉、工具调用失败等),提出可执行优化方案