主导大模型系统架构设计: 负责RAG系统的整体架构设计,包括存储层、检索层、推理层与缓存层的技术选型与实现
构建高可用、低延迟的分布式推理服务框架,支持向量数据库集成(如Milvus、Elastic)、知识库管理与多模态检索优化
设计并实现Agent工作流编排框架,支持工具调用(MCP协议)、任务规划与自动化执行
模型部署与性能优化: 负责大模型(LLM/VLM)的本地化部署、量化压缩、动态批处理与推理加速,优化GPU/CPU异构算力利用率
AI服务平台开发: 基于Java/Go/Python构建高并发、可扩展的AI微服务,与现有业务系统深度集成,实现模型训练-部署-监控的全链路管理
技术领导与跨团队协作: 指导中级工程师,制定技术方案,并主导技术攻关
与产品、算法、基础设施团队协作,定义需求并推动工程落地