负责文生图、文生视频等自研大模型核心算子的自研开发与性能优化,基于CUDA、OpenAI Triton等工具实现高性能计算加速
针对AI Infra大模型推理与训练场景,优化混合精度量化策略,设计低比特计算、稀疏化压缩等方案,提升模型部署效率
深入GPU/Tensor Core硬件架构,优化显存管理、计算图调度及分布式通信,提升模型训练吞吐与资源利用率
搭建端到端模型推理流水线,探索多模态生成任务下的算子融合、动态编译等创新优化手段
协同算法团队完成模型轻量化落地,提供量化感知训练(QAT)、模型剪枝等技术支持