
百度
模型训练平台组_机器学习架构工程师(J82075)
模型训练平台组_机器学习架构工程师(J82075)
发布于 2 天前普通员工/个人贡献者
北京市 / 上海市
高级经验
全职员工
仅现场办公
本科
PyTorch
生成式AI
推荐系统
CUDA
大模型
DeepSpeed
Flashattention
Ctr/Cvr
AI 估算 · 30k–60k
涉及前沿生成式AI大模型,技能稀缺,薪资竞争力强。
职位详情
关于这个职位
百度正在招聘机器学习架构工程师,负责商业广告场景中生成式推荐大模型的端到端架构设计与落地
你将主导训练加速与推理优化,应用Transformer、DeepSpeed等前沿技术,并与算法团队深度协作,将CTR/CVR等前沿模型高效部署上线
这是一个技术驱动、挑战性极高的岗位,适合对大规模分布式AI系统有浓厚兴趣的工程师
最低要求
计算机、人工智能、数学等相关专业本科及以上学历
熟悉以下技术或者具备实战经验者优先:主流训练框架(PyTorch/TF/Paddle)、分布式训练架构(DeepSpeed/Megatron-LM)或者前沿训推加速技术(FlashAttention/PagedAttention/vLLM)
熟悉C++/Python/Linux/CUDA编程,具备GPU集群性能调优与问题诊断经验,能够独立解决内存、通信与计算瓶颈
熟悉搜索、广告、推荐系统领域,了解CTR/CVR预估、embedding技术、离散特征、序列化建模等技术
具备主动钻研新技术、学习能力强,对行业前沿的推荐、信息检索、生成式AI等技术动态有敏锐嗅觉,乐于探索、挑战难题并推动成果转化
具备良好的沟通与团队协作意识,责任心强,具备大型复杂业务背景下的项目推动与闭环能力
工作职责
负责商业广告场景生成式推荐大模型的端到端架构设计与落地,覆盖从预训练/微调、推理到在线评估的全流程,搭建高可用、高扩展的模型工程架构,支撑商业广告场景的生成式技术创新
负责生成式模型的训练加速与推理优化攻关,深入应用Transformer/DeepSpeed/FlashAttention/SMoe等前沿技术,解决超长序列、编译优化、显存优化等关键瓶颈,打造业界领先的高吞吐、高稳定训推平台
深度协同算法策略团队,将CTR/CVR预估、序列建模及多模态大模型等前沿算法转化为高效的生产系统,建立从"实验原型"到"线上服务"的快速迭代机制,解决复杂场景下的工程适配难题,显著提升策略迭代效率与商业变现能力
跟踪推荐系统、生成式AI及大模型领域的最前沿学术论文,负责工程优化和策略算法的评估、复现和落地
优先资格
博士学历或在MLSys, SIGIR, KDD等顶级会议有论文发表者优先
AI 洞察
优缺点分析
优点
- 深度接触前沿生成式AI大模型技术,技能成长速度快
- 高薪资、高福利,互联网大厂平台资源丰富
- 与顶尖算法和工程团队合作,积累高端人脉
- 技术难度极高,需要同时掌握分布式系统、GPU优化和推荐算法
- 工作强度可能较大,需持续跟踪最新论文并快速落地
- 竞争激烈,团队内部对技术深度和产出要求严格
缺点 / 挑战
- 百度核心商业广告部门,业务价值高,技术挑战大
- 适合技术基础扎实、热爱挑战、愿意深耕大模型和推荐系统领域的资深工程师
角色解读
- 成为大模型训推架构专家,在MLSys领域建立个人影响力
- 向技术负责人或架构师方向发展,主导更大规模的AI系统设计
- 可横向拓展到其他AI应用领域,如NLP、CV或多模态
- 设计并实现生成式推荐大模型的端到端训练和推理架构,覆盖从预训练、微调到在线服务的全链路
- 攻关训练加速和推理优化,应用FlashAttention、DeepSpeed等前沿技术解决显存、通信和计算瓶颈
- 与算法团队紧密协作,将CTR/CVR预估、序列建模等最新算法转化为高效的生产系统,提升迭代效率
- 跟踪学术界最新进展,评估并落地先进技术,保持技术领先性
- 精通深度学习框架(PyTorch/TF/Paddle)和分布式训练框架(DeepSpeed/Megatron-LM)
- 熟练掌握C++/Python/CUDA编程,具备GPU集群性能调优与问题诊断能力
- 深入理解推荐系统领域知识,包括CTR/CVR预估、embedding、序列化建模等
- 对生成式AI和大模型技术有敏锐嗅觉,能独立解决系统瓶颈
申请策略
- 在申请材料中表达对生成式AI和推荐系统结合的热情,并引用百度已发表的相关论文
- 准备一个端到端的项目案例,从模型设计到工程部署,展示系统思考能力
- 突出大模型训练或推理优化的项目经验,包括使用的框架和具体成果
- 强调GPU性能调优案例,如显存优化、通信优化等,并附上量化指标
- 列出与推荐系统相关的工程实践,如CTR模型部署、特征工程等
- 如有相关学术论文或专利,务必展示
- 快速学习FlashAttention、PagedAttention等最新训推加速技术
- 补充CUDA编程和GPU架构知识,掌握NVIDIA Nsight等工具
面试指南
- 使用STAR原则:背景、任务、行动、结果
- 先明确问题定义,再描述技术方案,最后量化成果
- 对开放性问题,展现思考深度和行业洞察
- 请描述一个你优化过大模型训练或推理的案例,具体解决了什么瓶颈?
- Transformer中Self-Attention的计算复杂度和显存占用如何优化?
- 在分布式训练中,你遇到过哪些通信瓶颈?如何解决?
- CTR/CVR预估模型中的特征交叉是如何工程化实现的?
- 如何看待生成式AI在推荐系统中的应用前景?
匹配度报告
75
综合匹配度
大厂核心AI岗,前沿技术,薪资优厚,但WLB一般。
适合人群
最适合高度重视技术成长和薪资回报,不介意一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活50
使命价值70
薪资福利匹配
85较高
该职位薪资具有较强竞争力,虽然JD未明确具体数字,但基于百度大厂和岗位级别,薪资水平在市场高位。未提及福利,但大厂通常有完善福利。
薪资信号未披露(AI估算:30K-60K/月)
成长发展匹配
95较高
该岗位深度涉及生成式AI大模型的最前沿技术,技能成长空间极大,是技术人员的理想发展平台。
技术前沿前沿/新兴技术
技术栈Transformer、DeepSpeed、FlashAttention、PyTorch、CUDA、CTR/CVR
业务类型profit_center
工作生活匹配
50较低
工作地点在北京或上海市区,需要现场办公。JD未提及弹性工时或WLB,互联网大厂通常工作强度较高,生活平衡一般。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值匹配
70中等
生成式AI和推荐系统属于高速增长赛道,技术影响力大,但社会价值中性,主要驱动商业变现。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
百度 的其他在招职位
相似职位推荐
Watch Jobs