负责设计和优化LLM训练框架,支撑LLM高性能训练
与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展,推动AI大模型技术的落地与创新:
负责设计和优化LLM训练框架,支撑LLM高性能训练
与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展
系统设计与优化:设计并搭建分布式训练框架,跟平台协作,支持千亿级参数大模型的训练
性能调优与成本优化:针对大模型训练任务,优化框架(如PyTorch/VERL等)的分布式策略,提升训练效率
稳定性与可靠性保障:设计高可用架构,解决训练中断、数据丢失等风险,确保长周期训练任务的稳定性
协作与落地:与算法团队紧密合作,理解模型需求,提供基础设施层面的技术建议
推动开源工具的定制化开发,适配业务场景