对大模型进行全面、细致、准确、高效的评测,对模型能力深度分析,明确模型的现有优势与缺陷,作为模型下一步发展的指路明灯
涉及当前几乎所有类型的主流大模型,包括但不限于通用对话、代码、图片/视频/语音理解与生成、长文本、Agent、角色扮演等
探索可靠的LLM-as-a-Judge方法,在模型能力边界范围内最大化自动化评估的占比
与预训练、Post-Training方向密切合作,构建准确、通用的Critic模型用于DPO、RL训练等
完善与扩展评测的维度,挖掘已知模型能力之外的评测指标,探索未来模型方向
参与搭建自动化、可扩展、可靠的评测系统,缩短评价周期,助力内部模型迭代
构建评测的数据飞轮,实现线上数据获取-数据筛选分类-标注-模型迭代-评估的正向循环
对大模型的安全性进行全方位评估和提升能力,研究大模型超级对齐的前瞻性技术
参与撰写技术文档和学术论文,包括并不限于基准设计、评测标准和研究进展等