
字节跳动
大模型算法工程师-广告智能私信
大模型算法工程师-广告智能私信
发布于 大约 7 小时前普通员工/个人贡献者
上海市
中级经验
全职员工
仅现场办公
学历未注明
软件工程
强化学习
LLM
SFT
PPO
RLHF
大模型训练
广告智能
AI 估算 · 25k–45k
大模型算法工程师为当前热门方向,字节跳动薪资竞争力强,上海地区中高级岗位月薪25-45k合理。
职位详情
关于这个职位
该职位负责字节跳动巨量引擎的广告智能私信产品,利用自研大语言模型(LLM)和知识库,帮助广告主自动接待抖音私信、托管留资,提升客服效率
核心工作包括调研前沿的LLM高效训练/推理方案(如PE、SFT、RM、RLHF),并从事强化学习与大模型智能体(LLM-based Agent)的交叉研究与落地
适合有大模型训练、强化学习经验的技术人才
最低要求
机器学习、人工智能、数理统计等相关专业背景
熟悉大模型的相关基础知识,具备大语言模型相关训练或推理的基础知识
熟悉LLM的训练或Fine-tuning的方法,例如SFT/RLHF经验,或熟悉强化学习(RL)概念,深入了解PPO相关算法知识
接触过Agent、数字人业务加分
优秀的代码工程能力、数据结构和基础算法功底,熟练掌握Golang或Python编程语言
有激情、不畏难、乐于挑战、快速尝试,乐于了解业务知识,具有良好的团队合作意识、理解沟通能力以及独立解决问题的能力
工作职责
调研并应用前沿的大规模模型高效训练/推理方案、包括不限于极致优化PE、SFT、RM、RLHF
从事强化学习与大语言模型智能体(LLM-based Agent)相结合的交叉研究与应用落地
AI 洞察
优缺点分析
优点
- 头部互联网大厂,AI算法岗位,技术氛围浓厚,能接触最前沿的大模型技术
- 业务场景明确,广告智能客服有商业价值,成果可量化,成就感强
- 团队自研LLM,有机会深度参与模型训练全流程,积累稀缺经验
- 业务导向,算法落地需考虑实际效果和成本,可能涉及大量实验和调优
- 大模型训练资源竞争激烈,需要高效利用算力,对工程能力要求高
缺点 / 挑战
- 技术迭代快,需要持续学习前沿论文和框架,学习压力较大
- 适合对大模型和强化学习有浓厚兴趣、喜欢挑战技术难题、愿意在商业场景中打磨算法的工程师
角色解读
- 技术纵深发展:成为大模型训练/推理方向的专家,主导核心算法优化
- 管理方向:带领团队攻克技术难题,晋升为技术Leader或架构师
- 跨领域拓展:向智能体、多模态等前沿方向延伸,参与公司级AI战略项目
- 负责调研和落地前沿的大模型高效训练/推理方案,包括PE、SFT、RM、RLHF等技术
- 从事强化学习与大语言模型智能体结合的交叉研究,推动广告智能客服产品迭代
- 利用自研LLM和知识库,优化抖音私信智能客服的回复质量与转化效果
- 与业务团队协作,理解广告主需求,设计并实现主动服务策略
- 扎实的机器学习/深度学习基础,熟悉大模型训练和微调方法,如SFT、RLHF
- 掌握强化学习核心算法(如PPO),具备LLM-based Agent相关经验者优先
- 优秀的编程能力,熟练使用Golang或Python,具备良好的数据结构和算法功底
- 独立解决问题的能力和团队协作精神,能快速学习并应用前沿技术
申请策略
- 提前了解字节广告业务和巨量引擎产品,在面试中展示商业理解
- 准备一个完整的LLM项目案例,从问题定义到实验结果的复盘
- 突出大模型相关项目经验,如SFT/RLHF微调、LLM推理优化等
- 展示强化学习项目,尤其是PPO算法应用,或Agent相关成果
- 强调编程能力,特别是Golang或Python的高质量代码示例
- 若有广告推荐、智能客服等业务背景,务必突出
- 深入理解LLM训练流程,动手实践SFT、RLHF代码
- 学习强化学习经典算法,重点关注PPO和MDP建模
面试指南
- STAR法则:情境(Situation)、任务(Task)、行动(Action)、结果(Result),清晰描述项目
- 技术深度与广度结合:先阐述理论基础,再说明实践细节,最后总结收获
- 痛点导向:强调问题背景、你的设计思路、权衡取舍以及最终效果
- 请详细描述你做过的大模型微调项目,包括数据处理、模型选择、训练策略和效果评估
- 解释RLHF的训练流程,以及PPO在其中的作用
- 如何优化LLM推理性能?请列举几种常见方法
- 你如何设计一个LLM-based Agent来提升广告回复的转化率?
- 在大模型训练中遇到过哪些工程挑战?如何解决的?
匹配度报告
71
综合匹配度
字节大模型算法岗,前沿技术栈,高成长性,但工作强度大,WLB一般。
适合人群
该职位最适合追求技术深度和前沿方向、愿意投入高强度工作以快速成长的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展95
工作生活40
使命价值70
薪资福利匹配
80较高
字节跳动薪资体系完善,大模型岗位薪酬处于行业高位,但JD未明确具体福利,故评分良好。
薪资信号未披露(AI估算:25K-45K/月)
成长发展匹配
95较高
该职位聚焦前沿LLM技术,涉及训练、推理、强化学习交叉,技术成长空间极大,且团队自研模型,学习机会丰富。
技术前沿前沿/新兴技术
技术栈LLM、SFT、RLHF、PPO、Agent、强化学习、大模型训练
业务类型profit_center
工作生活匹配
40较低
互联网大厂算法岗位通常工作强度较大,JD未提及弹性工作或WLB,推测加班常见。
工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)
使命价值匹配
70中等
广告智能私信直接帮助广告主提升效率,有明确商业价值,但社会影响力中性。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
字节跳动 的其他在招职位
相似职位推荐
Watch Jobs