大语言模型架构研究员(预训练方向)
🤖 AI 估测:¥45K-80K
发布时间:6 天前
ℹ️关于这个职位
这是一个专注于大语言模型(LLM)预训练阶段核心技术研发的岗位
你将深度参与LLM模型架构(如MLP、Attention模块)的改进与创新,并负责训练方法的优化设计,目标是在模型训练和推理效率上达到业界领先水平
你需要具备扎实的深度学习基础和丰富的实操经验,在团队提供的丰富算力支持下,进行前沿探索
✓工作职责
深度参与LLM的模型结构,包括MLP以及attention 模块改进,以及训练方法的设计,包括模型并行策略优化,优化算法改进,量化算法改进,目标损失函数改进等方向,目标是同时在模型训练以及大概规模推理效率上取得sota级别的领先水平
深入调研如何设计科学的实验,利用scaling law验证模型设计,获取从头开始,端到端的大模型训练经验
⭐最低要求
本科及以上学历,计算机、人工智能、自动化、数学专业优先
扎实的编程基础,对数据结构、算法设计基础有深度了解,熟练使用pytorch或其他深度学习框架
有深度学习训练丰富实操以及参数调优经验
责任心强,积极主动,有良好的沟通和合作能力
👍优先资格
有LLM模型训练经验者优先
有高性能计算经验者优先,有triton,cuda 等gpu kernel 编码经验优先
有ACM/IOI/NOI/Top Coder等算法竞赛获奖经历优先
在顶级学术会议上发表论文者优先,在机器学习、人工智能领域内获得过优异成绩者优先