Canva logo
可画
Machine Learning Engineer (Training Optimization)

Machine Learning Engineer (Training Optimization)

发布于 大约 7 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
软件工程
PyTorch
GPU优化
LLM
JAX
CUDA
扩散模型
分布式训练
NVIDIA NeMo
Megatron-LM

AI 估算 · 35k–60k

高级AI系统优化工程师,跨国上市大厂,技能稀缺性强,市场薪资水平较高,估算月薪35k-60k。

职位详情

关于这个职位

该职位属于可画(Canva)生成式AI超级团队的CORE组,专注于大规模多模态和基础模型的训练系统优化

你将设计分布式训练系统,使用Megatron-LM、NeMo、FSDP、Triton等框架,提升计算、内存和通信性能
适合对AI系统优化有热情、擅长低层级编程的工程师

最低要求

扎实的LLM、多模态AI或扩散模型背景

熟练掌握Python,了解系统编程语言(如C++或Rust)者优先
深入掌握PyTorch或JAX,以及Megatron-LM、NeMo或DeepSpeed等库
熟悉常见优化技术,如FSDP/ZeRO、梯度检查点或低精度数据类型
有使用CUDA或Triton编写自定义GPU内核的实践经验
出色的沟通和问题解决能力,英语流利

工作职责

设计、实现并优化用于训练的大规模机器学习系统

提升性能的所有方面,包括GPU利用率、通信开销和内存效率
与研究团队和建模团队合作,使系统与算法需求对齐
评估并应用使用行业领先框架进行分布式训练的最佳实践
深入低层优化,包括自定义CUDA或Triton内核
调试、分析和微调训练工作流,以实现新的可扩展性水平

AI 洞察

优缺点分析

优点

  • 接触最前沿的大模型训练技术,技能稀缺性强,市场价值高
  • Canva为上市跨国企业,平台成熟,资源丰富,工作稳定性好
  • 团队聚焦生成式AI核心,研究与应用结合紧密,成长空间大
  • 岗位强调系统与算法交叉,能全面提升综合技术能力
  • 技术要求极高,需同时掌握分布式系统、GPU编程和AI模型知识
  • 工作节奏可能较快,需要快速迭代和解决复杂性能问题
  • 面试竞争激烈,需要扎实的实践经验和深入的理论理解
  • 适合具备扎实系统编程和AI框架经验、对分布式训练优化充满热情、愿意在大规模场景下攻克性能难题的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 从训练系统工程师成长为AI基础设施架构师,主导更大规模的训练平台设计
  • 向生成式AI前沿研究方向发展,参与核心模型算法创新
  • 在Canva内部可晋升为技术主管或团队负责人,带领优化团队
  • 设计并实现大规模分布式训练系统,优化多模态及基础模型的训练性能
  • 使用Megatron-LM、NeMo、FSDP、Triton等框架,提升GPU利用率和计算效率
  • 与研究团队合作,将新算法高效集成到训练流程中
  • 编写自定义CUDA/Triton内核,进行低层性能调优
  • 精通Python,熟悉C++或Rust更佳,掌握PyTorch或JAX
  • 深入理解分布式训练框架(Megatron-LM、NeMo、DeepSpeed)
  • 熟悉FSDP/ZeRO、梯度检查点、低精度训练等优化技术
  • 具备CUDA/Triton内核编写经验,能进行GPU级优化

申请策略

  • 在求职信中表达对Canva AI方向的理解和热情,例如提及对AI辅助设计的兴趣
  • 提前了解Canva的产品和技术博客,面试时展示你对公司愿景的认同
  • 突出分布式训练项目经验,详细说明使用的框架和优化的具体性能指标(如吞吐量、内存节省)
  • 展示CUDA/Triton内核编写经历,包括优化前后对比和实现细节
  • 强调对LLM、多模态或扩散模型的理解,以及模型训练调优的实战案例
  • 提供GitHub或个人博客链接,展示相关技术贡献或开源项目
  • 深入学习Megatron-LM和NeMo的源码,理解其设计原理
  • 练习编写CUDA/Triton内核,完成如FlashAttention等经典算子复现

面试指南

  • 使用STAR法则:先描述场景和任务,然后说明你采取的行动(具体技术方案),最后量化结果(如训练速度提升xx%)
  • 从系统角度出发:分析瓶颈(计算、内存、通信),然后针对性优化,并比较不同方案的优劣
  • 请描述你如何设计一个大规模分布式训练系统,包括数据并行、模型并行和流水线并行策略?
  • 你如何优化GPU训练的效率?请列举你使用过的具体技术(如混合精度、梯度累积)
  • 编写CUDA/Triton内核时,如何处理共享内存和线程同步?
  • 当训练出现OOM或通信瓶颈时,你的调试思路是什么?
  • 你对Megatron-LM的tensor parallelism和sequence parallelism有什么理解?
  • 复习分布式训练的核心概念(数据并行、模型并行、流水线并行、ZeRO等),并准备实际项目案例

匹配度报告

78
综合匹配度

顶级AI训练优化岗,前沿技术栈,高度发展性,但工作强度可能较大,需现场办公。

适合人群
该职位最适合追求技术前沿、渴望在AI系统优化领域快速成长的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活50
使命价值80

薪资福利匹配

85较高

该职位位于北京,上市跨国企业,薪资有竞争力且有股票期权可能,福利待遇较好,整体补偿性动机能满足程度较高。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

95较高

岗位涉及最前沿的生成式AI训练技术,使用Megatron-LM、NeMo、Triton等先进工具,与顶尖研究团队合作,技能成长和晋升空间极大。

技术前沿前沿/新兴技术
技术栈Megatron-LM、NVIDIA NeMo、FSDP、Triton、CUDA、分布式训练、LLM、多模态AI
业务类型profit_center

工作生活匹配

50较低

要求现场办公,工作地点在北京,未提及弹性工时或远程,且行业可能存在一定工作强度,生活方式满足度一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

80较高

生成式AI是高速增长赛道,Canva的产品影响数亿用户,工作直接推动AI民主化设计,社会意义较强。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs