负责设计与演进业界领先的大模型在线推理平台,构建支撑亿级日调用量的高性能、高可用、高扩展的服务体系,为公司AI业务提供坚实的推理能力基座
负责设计高性能推理服务架构,结合推理引擎与底层硬件的核心特性,优化动态调度、资源管理等核心后台策略,实现服务性能与成本效益的最优化
负责研发标准化的推理服务框架与配套工具链,打通从模型研发、性能优化到线上部署的全链路流程,提升推理服务工程化落地效率
负责构建平台的高可用架构与可观测性体系,落地故障容灾、限流熔断等核心能力,为容量规划、应急响应提供数据与技术支撑,保障服务的可靠性