字节跳动的资深大语言模型评测研究员-TikTok薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

资深大语言模型评测研究员-TikTok的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的资深大语言模型评测研究员-TikTok有什么任职要求？

该职位要求硕士学历及高级经验工作经验。

字节跳动

资深大语言模型评测研究员-TikTok

立即应聘

资深大语言模型评测研究员-TikTok

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

众测

大模型评测

数据分析

用户研究

自动化评估

AI评估

LLM

AI 估算 · 30k–50k

字节跳动为互联网大厂，资深研究员月薪在3-5万之间，考虑15薪，技术难度高，市场竞争力强。

职位详情

关于这个职位

该职位主要负责大语言模型评测体系的构建与优化，通过专家评估、众测和自动化评测等方式，评估AI回复质量，识别体验短板并提出改进建议

适合有大模型评测或用户研究经验的专业人士，工作涉及与国际团队协作，推动评测计划落地

最低要求

硕士学位或以上，专业背景优先人工智能、计算机科学、认知科学、教育测量、社会科学定量研究

在大模型评测领域有3年及以上工作及研究经验，设计过AI理想态评估机制，有用户研究、数据分析等项目经历

工作细致有条理，逻辑清晰，沟通能力强，具备团队合作精神

工作职责

理解大模型能力，跟进大模型评测领域的前沿研究范式，掌握定性和定量的用户研究方法，探索不同场景下AI回复模型的理想态牵引体系

对Tako线上体验负责，综合内部专家评估、众测、LLM自动化评估等方式构建评测指标，找到体验短板并针对性地提出改进建议，帮团队量化和明确解决问题的优先级与方向

协同国际化运营团队推动评估计划的实施，包含评测集的维护&沉淀、Benchmark评测例行执行与分析

AI 洞察

优缺点分析

优点

处于AI大模型前沿领域，技术积累价值高
字节跳动平台大，资源丰富，国际化团队协作
职位核心，直接影响AI产品体验，成就感强
大模型评测领域快速变化，需持续学习新技术
工作涉及多团队协作，沟通协调成本高
评测标准难以量化，需要较强的判断力
适合在AI评测或用户研究领域有经验，喜欢探索前沿技术，擅长数据驱动决策的求职者

缺点 / 挑战

暂无明显挑战项

角色解读

向AI评测专家或技术负责人方向发展，主导评估体系
横向扩展到AI产品、用户研究或算法优化岗位
在字节跳动内部可晋升为研究员或团队管理岗
设计并实施大模型评测方案，包括专家评估、众测和自动化评测
分析评测数据，识别AI回复的体验短板，提出改进建议
协同国际化团队，管理评测数据集和Benchmark执行
深入理解大模型能力和前沿评测范式
掌握定性定量用户研究方法，如问卷、访谈、实验设计
具备数据分析能力，能从评测数据中提炼洞察

申请策略

在简历中附上评测案例，说明你如何发现问题并推动改进
了解TikTok的AI产品，思考评测如何提升用户体验
突出大模型评测项目经历，包括评估框架设计、指标构建
强调用户研究经验，如定性访谈、定量问卷、实验分析
展示数据分析能力，如使用Python/SQL处理评测数据
学习最新LLM评测论文和方法，如Chatbot Arena、AlpacaEval
强化统计学和实验设计知识，提升评测可靠性

面试指南

STAR法则（情境、任务、行动、结果）描述评测项目
分维度讨论评测指标：准确、安全、有用、流畅等
强调数据驱动和迭代优化，用具体数据说明效果
请描述你设计过的一个大模型评测方案，包括指标和流程
如何区分模型回复的准确性、安全性和有用性？
面对模型幻觉，你会如何设计评测指标？
你如何协调跨团队资源推动评测计划落地？
复习大模型评测前沿论文，如MMLU、HumanEval、GPT-4评测

职位点评

综合评分

字节跳动AI核心岗位，前沿技术栈，高薪资高成长，但工作节奏快。

更适合这类人

适合追求技术成长和前沿领域，能接受一定工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活50

使命价值70

薪资福利

85较高

字节跳动提供有竞争力的薪资和福利，尤其在AI核心岗位，薪资偏高。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

该职位涉及前沿LLM评测技术，技术成长空间大，且有国际化合作机会。

技术前沿前沿/新兴技术

技术栈大模型、LLM、评测、Benchmark、用户研究

业务类型profit_center

工作生活

50较低

仅现场办公，字节跳动工作强度较高，但北京办公地点可能在核心区域。

工作模式仅现场办公

办公地点市区核心地段

加班情况JD含高强度暗示词

使命价值

70中等

AI领域对社会影响大，但具体评测工作偏向技术落地，使命感一般。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度积极采用新技术

Watch Jobs

资深大语言模型评测研究员-TikTok

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

资深大语言模型评测研究员-TikTok

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动的其他在招职位

字节跳动的其他在招职位