负责下一代AI实验评估体系的规划与落地,探索LLM及AI Native产品的科学评估方法论,包括Human Eval与Model-based Eval,对齐OpenAI等业界前沿标准
主导建设针对LLM应用(元宝、ima)的专项实验能力,解决非确定性输出的评估难题
打造实验平台的“AI Agent”,利用LLM能力重构实验流程,包括实验报告自动生成、ChatBot解决实验问题、指标智能归因及异常诊断
探索并落地MCP等开放协议,实现实验平台与业务AI Agent的高效互通与上下文协同
打通“训练-实验-发布”全链路,推动实验平台与模型训练平台、运营系统的深度融合,实现模型迭代的闭环管理
在公司内部推动AI实验文化的普及,建立高阶实验(如Interleaving、社交网络实验)的最佳实践标准