参与设计实现具身智能训练框架,为算法研发提供覆盖数据准备、模型训练、仿真验证到线上推理的一站式解决方案,确保平台具备高度的灵活性和扩展性,以快速集成新的算法思想与机器人本体,支撑算法研发从实验到规模化应用的完整闭环
构建稳定高效的大规模分布式训练平台,重点解决具身RL训练中算法训练、推理、仿真渲染等复杂任务的自动化流程编排问题
深度优化GPU/CPU混合集群的资源调度策略,极致提升算力利用率,解决大规模多任务并发下的资源争抢与性能瓶颈
参与算法评测平台的搭建,设计科学、全面的评测指标体系,实现对不同算法版本效果与性能的自动化、量化评估
建立Badcase自动收集与分析管道,形成“训练-评测-反馈”的数据闭环,为算法迭代提供明确、量化的决策依据,驱动算法性能持续提升
从全局视角规划和提升团队的基础设施能力,包括但不限于持续集成/持续部署(CI/CD)、监控告警、资源管理等,确保整个研发平台的稳定性和先进性