工作职责 你将参与到小红书下一代 AI native 应用的构建中,通过 Omni Model 技术改变现有 AI 以文字交互为主的形态,负责全模态大模型(Omni Model)的后训练工作,主导音频与文本、视觉协同对齐的整体方案设计与落地,包括并不限于: 1、制定并迭代音频-文本-视觉对齐数据体系,与数据团队合作构建高质量、多样化、有审美的跨模态数据,并提升端到端模型的语音理解和表达能力
2、基于 SOTA omni 基座模型,在语音、视觉、文本长序列混合后训练中,通过多种训练方法保证语音能力充分发挥的同时,又不削弱模型智商与图文表现
3、构建语音质量与语义一致性的 Reward 模型
通过 RLHF/RLAIF/Self-Rewarding 以及 Session level RL 技术提升模型在实时对话中的语义、情绪理解能力,语音表达的自然度、逻辑一致性
4、与工程、产品团队协同,把实验成果快速迁移到线上服务,并探索基于线上用户的语音交互反馈实现在线 RL 迭代提升