训推平台构建:负责模型训练与推理平台的整体架构设计、选型及实施工作
主导及实施大模型平台的建设,确保平台具备高可用性、可扩展性和易用性
持续优化大模型服务调度策略,提升服务吞吐和资源利用率
训推性能加速与优化:追踪行业领先的模型训练与推理加速技术,探索并集成先进的训推加速工具与框架,提升训练加速比与推理资源利用率
智能体平台构建:主导智能体平台与多智能体框架的工程架构设计、选型及实施工作
持续追踪行业领先的多智能体架构,设计支持复杂决策、工具调用与协同工作的底层系统框架,为智能体应用提供稳定可靠的运行环境
ModelOps体系建设:构建和完善ModelOps 实践流程与工具链,实现模型及智能体开发、部署、监控与治理的全生命周期自动化管理,提升AI研发与运维的质量、效率及研发合规工作
技术前瞻与攻坚:持续跟踪AI Infra领域的前沿技术(如新型硬件适配、调度框架等),主导技术选型与难题攻关,确保技术栈的先进性与适用性