项目全周期管理:
1)负责项目的规划、执行与交付,确保项目按既定目标推进,把控关键里程碑(如数据准备、模型训练、上线部署等)
2)协调跨团队(算法、工程、Infra等)合作,识别潜在风险并推动解决,保障项目按时高质量交付
3)深入理解机器学习开发全流程(数据准备→模型训练→部署推理),能够识别关键技术风险并推动解决
AI资源与运维管理:
1)熟悉并能够管理GPU/CPU、存储等计算资源,优化分配策略,平衡效率与成本
2)熟悉多地域/多机房的服务部署与容灾方案,协助提升资源利用率和运维效率
流程与协作优化:
1)建立项目管理的标准化方法论,通过工具链优化和流程改进提升团队工作效率
2)跟踪项目进展,定期输出关键指标(如资源使用率、项目里程碑达成率等)