岗位职责 简介:大语言模型后训练前沿算法研究包括但不限于:
对齐算法研发:包括 SFT 数据建设,指令微调等
构建高质量的训练数据,包括自动化数据清洗、合成数据生产、高质量 Prompt Engineering 等
优化模型复杂指令遵循、逻辑推理、创作写作、代码生成以及工具调用等能力,提升模型综合能力和用户体验
人类偏好对齐:包括奖励模型、人类偏好对齐等前沿强化算法的探索和实践,提升模型在包括创意写作、对话风格以及模型内生安全对齐等人类偏好上的可控性,生成更符合人类价值观、逻辑习惯和审美偏好的内容
跟踪并实现最新的后训练技术(如数据领域自动化配比、后训练机制设计和优化等)