紧跟业界主流的大模型发展趋势,对主流开源模型的推理服务性能负责,以支撑星辰MaaS Token经济规模化增长
参与并主导大模型推理系统的架构设计与性能优化,包括推理框架选型与改造,推动算子融合、KV Cache 管理、批处理调度(Batching/Continuous Batching)与多卡并行(Tensor/PP/EP)等关键能力落地,持续提升推理性能、稳定性与资源利用率
推进大模型推理系统的工程化落地,包括性能优化、稳定性保障与规模化部署
与算法、平台、产品等团队紧密协作,推动技术方案在实际业务中的落地