协助探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型
1)设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等
2)探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等
3)研究模型结构和数据的耦合关系
探索预训练与上下游环节的联合优化
改进分阶段训练范式
4)结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计