负责 GUI Agent 专用 VLA 模型的训练与微调,包括基于 Qwen-VL、Qianfan-VL 等多模态模型的架构设计与实验迭代
主导后训练全流程(SFT → RM → RL)的算法设计与落地,具备 RLHF / DPO 等对齐方法的工程实践经验
设计并落地 GUI 操作轨迹数据的自动化采集、清洗与标注 Pipeline,推动数据飞轮闭环,驱动模型持续进化
主导模型推理加速与生产部署,熟悉 vLLM、TensorRT-LLM 等推理框架及量化技术,持续优化端到端时延与吞吐量
研究并落地适用于 GUI Agent 场景的高阶推理机制(多步规划、自我反思、动作验证等),持续跟踪前沿进展