大模型训练与推理基础设施研发:参与构建和优化面向大规模分布式训练/推理的Infra平台,支持文本、图像、视频、语音等多模态大模型、扩散模型的训练与推理
涵盖集群资源调度、训练框架优化、高性能通信、混合精度训练、显存优化等关键环节,确保模型的训练效率与系统稳定性
前沿Infra技术探索与创新:持续跟踪并攻关大模型基础设施领域的前沿方向(如:超大规模异构集群管理、更高效的并行策略、MoE训练/推理优化、量化与推理加速框架、多模态模型高效并行策略等),通过系统创新显著提升训练吞吐、降低推理成本、改善资源利用率
大模型基础设施应用落地与赋能:将先进的Infra能力与公司大模型业务场景深度结合,主导技术方案的设计与实现,具体支持方向包括但不限于:
训练效率提升:支持Pretrain、SFT、RLHF等全流程训练任务,优化端到端训练性能
推理服务优化:构建高并发、低延迟的在线推理平台,支持多模态大模型的实时服务
成本与弹性优化:实现智能资源调度、Spot实例利用、自动扩缩容等,显著降低大模型训练与推理的算力成本
稳定性保障:打造高可用、故障自愈的分布式训练系统,确保7×24小时稳定运行
技术价值闭环:深度理解大模型训练与业务需求,利用平台海量算力与数据资源,推动Infra技术创新落地,并通过性能指标、成本指标、实验验证等科学方法衡量技术价值,最终为大模型研发提效、降本,并支撑业务增长