
普通员工/个人贡献者
AI 估算 · 50k–80k
大厂高级专家,技术稀缺,上海薪资水平高
该职位负责字节跳动Seed团队超大规模分布式训练系统的稳定性和容错机制,你将搭建稳定性体系、研发容错能力、进行故障根因分析,并深度参与PyTorch、Megatron-LM等框架优化,确保训练任务高效运行
本科及以上学历,计算机、软件工程、人工智能、电子信息、微电子等相关专业优先
训练稳定性体系搭建与架构优化:负责超大规模分布式训练集群的稳定性架构设计与迭代,定义可量化的稳定性指标,梳理全链路稳定性风险点,建立覆盖全流程的稳定保障体系
熟悉Megatron-LM、DeepSpeed、PyTorch等主流训练框架原理和实现
优点
缺点 / 挑战
大厂AI核心岗,前沿技术栈,薪资优厚,但工作强度大
大厂薪资竞争力强,福利完善,但JD未披露具体数字,面议可能性大。
技术前沿(大模型训练、分布式系统),成长空间大,但未明确提及晋升路径。
现场办公,工作强度大,未提供WLB信号。
AI大模型是高速增长赛道,职位有探索通用智能的使命感。