负责以数据为中心的LLMOps平台整体架构设计与建设,覆盖大语言模型Post-train(SFT、RLHF、DPO等)全阶段的数据管线与训练工程体系
主导大模型训练数据生命周期管理,包括大规模语料采集与清洗、数据质量评估与过滤、数据去重去污染、数据版本管理与血缘追踪,确保各训练阶段数据的高质量与可溯源
带领工程团队构建高效的数据处理流水线与编排调度系统,支撑PB级语料的高吞吐处理,持续优化数据准备到训练启动的端到端效率
负责团队的技术方向把控、人才培养与跨团队协作,推动工程文化与最佳实践落地
建设模型训练实验管理与可复现体系,打通数据准备、分布式训练、评估验证(Benchmark / Human Eval)、模型注册到部署上线的全流程自动化,缩短模型迭代周期
构建Post-train阶段的数据闭环能力,包括人类偏好数据采集与管理、RLHF/DPO训练数据管线、合成数据生成(Synthetic Data)与质量评估体系
持续提升平台运行稳定性、安全性与可观测性,建立完善的SLA体系、训练容错与断点续训机制,保障大规模训练任务的连续性
优化大规模GPU/异构计算集群的资源调度策略,提升多任务并行训练效率与集群利用率,降低基础设施成本
紧跟LLM领域前沿动态(如Data-Centric AI、Scaling Laws、MoE、长上下文训练、多模态等方向),推动技术架构持续演进与平台能力升级