负责MLLM多模态大模型日常评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因
对MLLM基座大模型和应用大模型进行效果评测,支持大量的自研模型迭代与研发,持续跟踪前沿发展,并进行竞品对比
构建短视频、直播等业务域场景的评测体系,支持各业务域的评测能力
探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护
提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表
站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验