负责将声学知识(人声和音乐)应用于文本到语音(TTS)与文本到音乐生成场景,从应用链路的各个环节提升声音质量,包括语音自然度、情绪表达、音色一致性,以及音乐的旋律优美度、节奏准确性等,以满足实际场景需求
深入理解音乐结构(旋律、和声、节奏、情绪)与音频信号处理,将音乐理解相关特征引入 TTS/SVS 模型,提高音乐性、可控性与生成质量
参与歌声合成(SVS)和声音克隆(VC)相关模型的研发与调优,包括音高曲线控制、韵律建模、音色迁移、多风格歌唱生成等
跟进行业前沿的 TTS、歌声合成、音频生成模型技术(如 Diffusion、Flow Matching、GAN、Neural Codec、音频 LLM 等),并将其有效应用于实际业务场景
构建与维护大规模音频与语音训练数据集,设计高效的数据清洗、标注、增强、去噪与特征提取流程
分析与解决应用中的关键问题,如音质退化、发音错误、韵律异常、音色偏移等,并持续优化模型性能
与音乐制作、产品、内容团队协作,推动模型在 AI 音乐创作、AI 歌手、AI 语音助手、语音互动等场景的落地,并根据反馈持续迭代