百度的大模型算法工程师-模型评测方向（J98466）薪资是多少？

该职位薪资范围为 20k–35k（人民币/月）。

大模型算法工程师-模型评测方向（J98466）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

百度的大模型算法工程师-模型评测方向（J98466）有什么任职要求？

该职位要求本科学历及中级经验工作经验。

百度

大模型算法工程师-模型评测方向（J98466）

立即应聘

大模型算法工程师-模型评测方向（J98466）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

软件工程

强化学习

LLM

多模态

AI Agent

医疗AI

自动化评测

大模型评测

AI 估算 · 20k–35k

百度大厂大模型算法岗，技术前沿需求高，竞争激烈，薪资位于行业高位，结合北京生活成本与公司薪酬体系。

职位详情

关于这个职位

作为大模型算法工程师（模型评测方向），你将负责跟踪大模型前沿技术，搭建和维护科学的模型评测体系，驱动模型迭代与优化

工作内容包括评估基础模型与创新应用效果、开发自动化评测系统、参与制定评测规划等

该职位直接影响前沿技术落地效果与用户体验，适合对技术有热情、擅长定量分析的人才

最低要求

本科及以上学历，计算机、人工智能相关专业优先

具有扎实的编程功底，至少精通一门主流编程语言（C++/Java/Go/Python等），具备良好的工程实践能力

在大模型训练、智能体应用、强化学习、提示词工程、数据集构建、数据挖掘、大模型评测等领域实践经验者优先

有高水平论文发表经历者优先，包括但不限于ACL、EMNLP、COLING、WWW、AAAI等

具备优秀的分析问题与解决问题的能力，对前沿技术具备敏锐的洞察力

有好奇心，对新技术有热情，善于团队协作，具备创新精神和抗压能力

工作职责

及时跟踪大模型技术前沿，承担基础模型与创新应用的效果评估工作，驱动模型迭代与优化，直接影响前沿技术落地效果与用户体验

研究并跟踪国内外最新的大模型技术进展，搭建和维护科学、高效、可扩展的模型评测体系，打造医疗行业权威评测基准Benchmark

深入参与团队内部模型训练的性能分析与评估，尤其聚焦在基础语言模型、多轮对话、多模态、AI Agent、强化学习等前沿技术方向的能力定量分析，对医疗模型进行能力水位衡量

开发自动化、可扩展、可靠的评测系统，挖掘模型潜在瓶颈并提出改进建议，提高自动评估的占比，缩短评测周期，敏捷高效提升模型的效果

参与制定模型评测的中长期规划，推动评测工具与流程自动化和标准化，构建业界领先的完整评测体系，结合人工和自动化评估手段，实现最佳的业务效果和用户体验

优先资格

有高水平论文发表经历者优先，包括但不限于ACL、EMNLP、COLING、WWW、AAAI等

AI 洞察

优缺点分析

优点

百度大平台，技术影响力大，能接触最前沿的大模型技术
职位聚焦评估，是模型迭代的关键环节，个人贡献可见度高
医疗行业方向，兼具社会价值与行业前景
薪资竞争力强，福利完善（如五险一金、补充医疗等）
技术更新快，需要持续学习和跟进最新研究
工作强度可能较大，涉及模型迭代周期紧张
对定量分析和细节把控要求高，容错率低
适合对技术有热情、擅长数据分析和问题解决，愿意在AI大模型领域深耕的求职者

缺点 / 挑战

暂无明显挑战项

角色解读

技术路线：从评测工程师成长为评测专家或模型训练专家，深入算法核心
管理路线：可晋升为技术组长或团队经理，带领评测团队
横向发展：转向模型训练、应用开发或AI产品经理等方向
跟踪大模型技术前沿，负责基础模型和创新应用的效果评估，通过定量分析驱动模型迭代
搭建并维护科学高效的模型评测体系，打造医疗行业权威评测基准
开发自动化、可扩展的评测系统，优化评测流程，缩短周期
扎实的编程能力（Python/C++等），熟悉大模型训练与评测工具链
对LLM、多模态、AI Agent、强化学习等前沿技术有深入理解
优秀的分析和问题解决能力，能设计实验并解读数据

申请策略

提前了解百度医疗AI业务方向，在求职信中体现关注与思考
强调对评测工作的热情和细致认真的工作态度
突出大模型相关项目经历，尤其是评估、基准构建或模型优化经验
展示编程能力，列出熟练使用的语言和框架（如Python, PyTorch）
如有论文发表（ACL等），重点呈现其创新性和影响力
体现团队协作和跨部门沟通经验
深入了解主流大模型（如GPT、Llama）的评测方法和指标
学习自动化评测工具和CI/CD流程，提升工程化能力

面试指南

STAR法则：情境(Situation)、任务(Task)、行动(Action)、结果(Result)描述项目
分析问题：先拆解需求，再设计方案，最后评估效果
量化思维：多用数据和指标说明问题，体现分析能力
如何设计一个评测基准来评估大模型在医疗问答上的表现？
描述你过去参与过的大模型评测项目，遇到了哪些挑战？
如何平衡评测的自动化程度和准确性？
你如何看待当前大模型评测的局限性？
用Python实现一个简单的评测脚本，计算准确率和召回率

职位点评

综合评分

百度大厂大模型评测岗，技术前沿成长快，薪资优厚但工作强度可能较高。

更适合这类人

适合追求技术成长、愿意投入高强度工作、看重前沿领域和平台资源的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值75

薪资福利

80较高

百度大厂提供有竞争力的薪酬和福利，薪资水平处于行业前30%，但未明确具体数字。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

职位涉及前沿大模型技术，有大量学习和成长机会，晋升通道和论文发表均受鼓励。

技术前沿前沿/新兴技术

技术栈大模型、LLM、多模态、AI Agent、强化学习、Python、C++

成长机会高水平论文发表经历者优先

业务类型profit_center

工作生活

40较低

未提及远程或弹性办公，互联网大厂通常加班较多，生活和工作的平衡可能挑战。

工作模式未明确

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

医疗行业AI应用具有社会价值，但职位更偏技术实现，使命感中等。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号医疗行业权威评测基准

创新程度积极采用新技术

Watch Jobs

百度

大模型算法工程师-模型评测方向（J98466）

立即应聘

大模型算法工程师-模型评测方向（J98466）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

软件工程

强化学习

LLM

多模态

AI Agent

医疗AI

自动化评测

大模型评测

AI 估算 · 20k–35k

百度大厂大模型算法岗，技术前沿需求高，竞争激烈，薪资位于行业高位，结合北京生活成本与公司薪酬体系。

职位详情

关于这个职位

作为大模型算法工程师（模型评测方向），你将负责跟踪大模型前沿技术，搭建和维护科学的模型评测体系，驱动模型迭代与优化

工作内容包括评估基础模型与创新应用效果、开发自动化评测系统、参与制定评测规划等

该职位直接影响前沿技术落地效果与用户体验，适合对技术有热情、擅长定量分析的人才

最低要求

本科及以上学历，计算机、人工智能相关专业优先

具有扎实的编程功底，至少精通一门主流编程语言（C++/Java/Go/Python等），具备良好的工程实践能力

在大模型训练、智能体应用、强化学习、提示词工程、数据集构建、数据挖掘、大模型评测等领域实践经验者优先

有高水平论文发表经历者优先，包括但不限于ACL、EMNLP、COLING、WWW、AAAI等

具备优秀的分析问题与解决问题的能力，对前沿技术具备敏锐的洞察力

有好奇心，对新技术有热情，善于团队协作，具备创新精神和抗压能力

工作职责

及时跟踪大模型技术前沿，承担基础模型与创新应用的效果评估工作，驱动模型迭代与优化，直接影响前沿技术落地效果与用户体验

研究并跟踪国内外最新的大模型技术进展，搭建和维护科学、高效、可扩展的模型评测体系，打造医疗行业权威评测基准Benchmark

开发自动化、可扩展、可靠的评测系统，挖掘模型潜在瓶颈并提出改进建议，提高自动评估的占比，缩短评测周期，敏捷高效提升模型的效果

优先资格

有高水平论文发表经历者优先，包括但不限于ACL、EMNLP、COLING、WWW、AAAI等

AI 洞察

优缺点分析

优点

百度大平台，技术影响力大，能接触最前沿的大模型技术
职位聚焦评估，是模型迭代的关键环节，个人贡献可见度高
医疗行业方向，兼具社会价值与行业前景
薪资竞争力强，福利完善（如五险一金、补充医疗等）
技术更新快，需要持续学习和跟进最新研究
工作强度可能较大，涉及模型迭代周期紧张
对定量分析和细节把控要求高，容错率低
适合对技术有热情、擅长数据分析和问题解决，愿意在AI大模型领域深耕的求职者

缺点 / 挑战

暂无明显挑战项

角色解读

技术路线：从评测工程师成长为评测专家或模型训练专家，深入算法核心
管理路线：可晋升为技术组长或团队经理，带领评测团队
横向发展：转向模型训练、应用开发或AI产品经理等方向
跟踪大模型技术前沿，负责基础模型和创新应用的效果评估，通过定量分析驱动模型迭代
搭建并维护科学高效的模型评测体系，打造医疗行业权威评测基准
开发自动化、可扩展的评测系统，优化评测流程，缩短周期
扎实的编程能力（Python/C++等），熟悉大模型训练与评测工具链
对LLM、多模态、AI Agent、强化学习等前沿技术有深入理解
优秀的分析和问题解决能力，能设计实验并解读数据

申请策略

提前了解百度医疗AI业务方向，在求职信中体现关注与思考
强调对评测工作的热情和细致认真的工作态度
突出大模型相关项目经历，尤其是评估、基准构建或模型优化经验
展示编程能力，列出熟练使用的语言和框架（如Python, PyTorch）
如有论文发表（ACL等），重点呈现其创新性和影响力
体现团队协作和跨部门沟通经验
深入了解主流大模型（如GPT、Llama）的评测方法和指标
学习自动化评测工具和CI/CD流程，提升工程化能力

面试指南

STAR法则：情境(Situation)、任务(Task)、行动(Action)、结果(Result)描述项目
分析问题：先拆解需求，再设计方案，最后评估效果
量化思维：多用数据和指标说明问题，体现分析能力
如何设计一个评测基准来评估大模型在医疗问答上的表现？
描述你过去参与过的大模型评测项目，遇到了哪些挑战？
如何平衡评测的自动化程度和准确性？
你如何看待当前大模型评测的局限性？
用Python实现一个简单的评测脚本，计算准确率和召回率

职位点评

综合评分

百度大厂大模型评测岗，技术前沿成长快，薪资优厚但工作强度可能较高。

更适合这类人

适合追求技术成长、愿意投入高强度工作、看重前沿领域和平台资源的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值75

薪资福利

80较高

百度大厂提供有竞争力的薪酬和福利，薪资水平处于行业前30%，但未明确具体数字。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

职位涉及前沿大模型技术，有大量学习和成长机会，晋升通道和论文发表均受鼓励。

技术前沿前沿/新兴技术

技术栈大模型、LLM、多模态、AI Agent、强化学习、Python、C++

成长机会高水平论文发表经历者优先

业务类型profit_center

工作生活

40较低

未提及远程或弹性办公，互联网大厂通常加班较多，生活和工作的平衡可能挑战。

工作模式未明确

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

医疗行业AI应用具有社会价值，但职位更偏技术实现，使命感中等。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号医疗行业权威评测基准

创新程度积极采用新技术

Watch Jobs

大模型算法工程师-模型评测方向（J98466）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型算法工程师-模型评测方向（J98466）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

百度 的其他在招职位

搜广推策略算法工程师（J100978）

经营分析师（J101369）

百度网盘B端市场专家（J101342）

YY-公会运营（J101379）

音视频技术资深研发工程师（J101350）

相似职位推荐

后端开发工程师

全栈工程师

后端开发高级工程师

Industrial Engineering ES

Java后端开发 (全英)

百度 的其他在招职位

搜广推策略算法工程师（J100978）

经营分析师（J101369）

百度网盘B端市场专家（J101342）

YY-公会运营（J101379）

音视频技术资深研发工程师（J101350）

相似职位推荐

后端开发工程师

全栈工程师

后端开发高级工程师

Industrial Engineering ES

Java后端开发 (全英)

百度的其他在招职位

百度的其他在招职位