本课题聚焦小红书通用基座模型在真实业务 OOD 场景下的泛化性问题,围绕三个方向展开:
1)研究如何在训练阶段提升模型的 In-context Learning 与 OOD 泛化能力,包括任务抽象、数据构造、Prompt 模板改写与训练策略设计
2)研究如何评测这些能力,建立真实 OOD 评测和面向领域任务构造的 ICL 能力评测方法,区分真正的泛化提升与同分布收益
3)在模型固定的情况下,研究如何通过更好的 Context Engineering 提升模型在 OOD 任务上的表现
目标是沉淀可复用的训练、评测和 Context Engineering 方法,为小红书通用基座模型通过 Prompting 调用 API 更好服务业务提供支撑