预训练:模型架构设计和实现,持续打磨多阶段预训练技巧,结合自动化和人工筛选,持续迭代化数据配比方案(质量、类别分布、难度等),训练全尺寸Dense和MoE模型,以及探索Hybrid架构、Diffusion训练/推理等新一代大模型范式
后训练:SFT数据合成、拒绝采样、数据配比、模型训练,样本级标签体系建设,RL数据合成、Reward Model设计、router replay、RL算法创新,显著提升alignment阶段模型生成能力
数据&评测:持续改进数据体系pipeline,包括:数据收集、清洗、去重和配比等,合成各种高质量agentic/reasoning训练数据,提升模型通用能力
持续完善大模型评估体系和Bench,能有效评估STEM、math、code、知识、指令跟随、多语言等维度能力