评测体系规划与建设:负责 ASR与大模型产品的评测体系设计与搭建,覆盖通用能力及专项能力(如语音识别准确率、口语化理解、多轮对话、推理、写作、多模态等)
结合产品目标定义评测维度、指标体系与流程机制,推动评测能力标准化、产品化与可持续迭代
Benchmark研究与业务化落地:跟踪国内外ASR、大模型相关评测方法、行业 Benchmark 与产品趋势,分析其适用场景与优缺点
结合业务需求和真实用户场景,设计或改造评测集与任务,推动通用 Benchmark 向业务评测方案落地,确保评测结果具备真实性、代表性与可复现性
产品效果分析与优化策略制定:定期组织不同版本模型或策略方案的评测与横向对比,输出系统化分析报告,识别产品体验中的优势、短板与关键问题
围绕识别质量、响应质量、稳定性、时延、可控性、用户满意度等维度,设计专项分析框架,支持产品迭代决策与优先级判断
用户反馈分析与体验闭环建设:持续监测用户真实使用数据、交互日志与反馈内容,挖掘 badcase、共性问题及高价值优化方向
联合算法、研发、运营等团队,将用户侧体验问题沉淀为可量化评测项、验收标准与优化方案,建立“用户反馈—评测验证—版本迭代”的闭环机制
跨团队协同与产品推进:与算法、数据、工程、测试等团队紧密协作,推动评测需求定义、数据建设、工具搭建和结果应用
将评测能力嵌入模型研发与产品迭代流程,推动形成从需求定义、评测验证到效果复盘的完整产品机制,提升模型效果与用户体验的持续优化效率