负责LLM、VLM、搜索推荐等大模型日常评测工作和评测体系建设,包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因
以算法手段,对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测,持续跟踪行业前沿发展,并进行竞品对比
从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准以及评测框架,包括通用能力、智能应用,如Agent、OpenClaw、CoWork等
探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护
提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表
站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验