预训练语料策略与体系搭建,负责大模型预训练阶段的数据策略,覆盖通用语料、垂直领域语料的全流程数据方案设计
主导数据评估:建立清晰可量化的数据评估标准,提高评估效率
验证数据有效性,推动模型迭代
数据驱动的模型迭代,深度理解预训练技术原理,通过数据分析定位模型能力短板,制定针对性数据补充策略,推动模型技术迭代升级
前沿探索,保持对开源模型(如DeepSeek、Qwen等)及学术前沿的敏锐度,沉淀可复用的数据方法论,为团队提供中短期数据策略规划
与算法、技术团队合作开发数据工具链,主动发现问题,发起项目,管理数据生产团队,把控数据质量与项目进度,推动跨团队高效协作,确保数据按时高质交付
主导垂直领域语料体系的从0到1搭建(包括但不限于人文/学科/code等体系),能够定义各体系的质量标准,并设计可量化的评估指标