负责异构云服务器架构设计与研发工作,需要深入理解前沿AI业务场景需求,结合火山引擎云基础设施底座及GPU/NPU、CPU、RDMA网卡等硬件特点完成设计与研发,快速定位解决各类功能问题,并指导公有云系统软件设计与硬件选型
负责异构云服务器性能优化工作,需要深入理解GPU/NPU、CPU、RDMA网卡等硬件特点及Linux Kernel等系统软件架构,通过多层次的分析工具定位关键性能瓶颈,与相关团队合作优化各类软硬件系统以达成业务目标
负责公有云场景下异构云服务器的稳定性架构设计与优化,主导从底层硬件适配到上层软件栈的全链路稳定性保障方案落地,构建异构云服务器稳定性监控与预警体系,实现潜在风险的提前识别与自动化处置
参与字节跳动异构计算资源池统一调度方案的设计,构建异构算力资源画像与智能调度策略,最大化提升异构资源池利用率,支持潮汐复用模式下字节跳动内部业务与外部客户的资源分时流转,降低客户上云成本