
可画
Machine Learning Engineer (Training Optimization)
Machine Learning Engineer (Training Optimization)
发布于 大约 7 小时前普通员工/个人贡献者
北京市
高级经验
全职员工
仅现场办公
学历未注明
软件工程
PyTorch
GPU优化
LLM
JAX
CUDA
扩散模型
分布式训练
NVIDIA NeMo
Megatron-LM
AI 估算 · 35k–60k
高级AI系统优化工程师,跨国上市大厂,技能稀缺性强,市场薪资水平较高,估算月薪35k-60k。
职位详情
关于这个职位
该职位属于可画(Canva)生成式AI超级团队的CORE组,专注于大规模多模态和基础模型的训练系统优化
你将设计分布式训练系统,使用Megatron-LM、NeMo、FSDP、Triton等框架,提升计算、内存和通信性能
适合对AI系统优化有热情、擅长低层级编程的工程师
最低要求
扎实的LLM、多模态AI或扩散模型背景
熟练掌握Python,了解系统编程语言(如C++或Rust)者优先
深入掌握PyTorch或JAX,以及Megatron-LM、NeMo或DeepSpeed等库
熟悉常见优化技术,如FSDP/ZeRO、梯度检查点或低精度数据类型
有使用CUDA或Triton编写自定义GPU内核的实践经验
出色的沟通和问题解决能力,英语流利
工作职责
设计、实现并优化用于训练的大规模机器学习系统
提升性能的所有方面,包括GPU利用率、通信开销和内存效率
与研究团队和建模团队合作,使系统与算法需求对齐
评估并应用使用行业领先框架进行分布式训练的最佳实践
深入低层优化,包括自定义CUDA或Triton内核
调试、分析和微调训练工作流,以实现新的可扩展性水平
AI 洞察
优缺点分析
优点
- 接触最前沿的大模型训练技术,技能稀缺性强,市场价值高
- Canva为上市跨国企业,平台成熟,资源丰富,工作稳定性好
- 团队聚焦生成式AI核心,研究与应用结合紧密,成长空间大
- 岗位强调系统与算法交叉,能全面提升综合技术能力
- 技术要求极高,需同时掌握分布式系统、GPU编程和AI模型知识
- 工作节奏可能较快,需要快速迭代和解决复杂性能问题
- 面试竞争激烈,需要扎实的实践经验和深入的理论理解
- 适合具备扎实系统编程和AI框架经验、对分布式训练优化充满热情、愿意在大规模场景下攻克性能难题的工程师
缺点 / 挑战
暂无明显挑战项
角色解读
- 从训练系统工程师成长为AI基础设施架构师,主导更大规模的训练平台设计
- 向生成式AI前沿研究方向发展,参与核心模型算法创新
- 在Canva内部可晋升为技术主管或团队负责人,带领优化团队
- 设计并实现大规模分布式训练系统,优化多模态及基础模型的训练性能
- 使用Megatron-LM、NeMo、FSDP、Triton等框架,提升GPU利用率和计算效率
- 与研究团队合作,将新算法高效集成到训练流程中
- 编写自定义CUDA/Triton内核,进行低层性能调优
- 精通Python,熟悉C++或Rust更佳,掌握PyTorch或JAX
- 深入理解分布式训练框架(Megatron-LM、NeMo、DeepSpeed)
- 熟悉FSDP/ZeRO、梯度检查点、低精度训练等优化技术
- 具备CUDA/Triton内核编写经验,能进行GPU级优化
申请策略
- 在求职信中表达对Canva AI方向的理解和热情,例如提及对AI辅助设计的兴趣
- 提前了解Canva的产品和技术博客,面试时展示你对公司愿景的认同
- 突出分布式训练项目经验,详细说明使用的框架和优化的具体性能指标(如吞吐量、内存节省)
- 展示CUDA/Triton内核编写经历,包括优化前后对比和实现细节
- 强调对LLM、多模态或扩散模型的理解,以及模型训练调优的实战案例
- 提供GitHub或个人博客链接,展示相关技术贡献或开源项目
- 深入学习Megatron-LM和NeMo的源码,理解其设计原理
- 练习编写CUDA/Triton内核,完成如FlashAttention等经典算子复现
面试指南
- 使用STAR法则:先描述场景和任务,然后说明你采取的行动(具体技术方案),最后量化结果(如训练速度提升xx%)
- 从系统角度出发:分析瓶颈(计算、内存、通信),然后针对性优化,并比较不同方案的优劣
- 请描述你如何设计一个大规模分布式训练系统,包括数据并行、模型并行和流水线并行策略?
- 你如何优化GPU训练的效率?请列举你使用过的具体技术(如混合精度、梯度累积)
- 编写CUDA/Triton内核时,如何处理共享内存和线程同步?
- 当训练出现OOM或通信瓶颈时,你的调试思路是什么?
- 你对Megatron-LM的tensor parallelism和sequence parallelism有什么理解?
- 复习分布式训练的核心概念(数据并行、模型并行、流水线并行、ZeRO等),并准备实际项目案例
匹配度报告
78
综合匹配度
顶级AI训练优化岗,前沿技术栈,高度发展性,但工作强度可能较大,需现场办公。
适合人群
该职位最适合追求技术前沿、渴望在AI系统优化领域快速成长的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活50
使命价值80
薪资福利匹配
85较高
该职位位于北京,上市跨国企业,薪资有竞争力且有股票期权可能,福利待遇较好,整体补偿性动机能满足程度较高。
薪资信号未披露(AI估算:35K-60K/月)
成长发展匹配
95较高
岗位涉及最前沿的生成式AI训练技术,使用Megatron-LM、NeMo、Triton等先进工具,与顶尖研究团队合作,技能成长和晋升空间极大。
技术前沿前沿/新兴技术
技术栈Megatron-LM、NVIDIA NeMo、FSDP、Triton、CUDA、分布式训练、LLM、多模态AI
业务类型profit_center
工作生活匹配
50较低
要求现场办公,工作地点在北京,未提及弹性工时或远程,且行业可能存在一定工作强度,生活方式满足度一般。
工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)
使命价值匹配
80较高
生成式AI是高速增长赛道,Canva的产品影响数亿用户,工作直接推动AI民主化设计,社会意义较强。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
可画 的其他在招职位
Senior Machine Learning Engineer - AI Effects and Editing
可画 · 北京市AI 估算 · 30k-60kAI Research Scientist 大模型研究科学家
可画 · 北京市AI 估算 · 40k-70kResearch Scientist
可画 · 北京市AI 估算 · 35k-65kSenior Software Engineer - Native Video Engine (China)
可画 · 北京市AI 估算 · 35k-55kMachine Learning Engineer (Training Optimization)
可画 · 北京市AI 估算 · 30k-60k
相似职位推荐
Watch Jobs