理解生成一体的对齐与优化(Post-Train):参与多模态大模型的post-training与对齐研究,围绕「理解 → 规划 → 生成」的一体化链路,提升模型在复杂指令理解、规划与工具调用、语义一致性、生成可控性、多轮编辑与用户意图对齐等方面的整体表现
图像生成与编辑方向的对齐方法探索:深入研究图像生成模型(Text-to-Image / Image Editing等)在真实使用场景中的失效模式,如语义偏移、指令遗漏、风格漂移、结构崩坏、幻觉生成等问题
探索并实践包括但不限于:
SFT / Preference Learning / RL-based方法在图像生成中的应用
多模态reward model及reward system设计
Spatial difusion model RL算法设计及实验验证
探索图像编辑能力与agentic能力结合,基于小红书的deep research能力,为用户在穿搭、家装场景等生活提供独特体验
探索图像生成能力与thinking with generated images结合提升模型的推理能力
跨职能协作与能力落地:与产品、工程、评测及安全团队紧密合作,将对齐与post-train成果落地到实际图像生成与编辑产品中,持续推动模型在可控性、稳定性与用户满意度上的提升