Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Xiaohongshu logo
小红书
Dots-预训练数据算法研究员
立即应聘

Dots-预训练数据算法研究员

发布于 大约 15 小时前

实习/见习

北京市 / 上海市
无经验要求
实习生
仅现场办公
本科
机器学习
深度学习
PyTorch
LLM
数据预处理
算法评测
自动化流水线
Code Agent

AI 估算 · 8k–12k

算法岗位技术要求高,小红书平台提供较好实习待遇,但实习薪资相对全职偏低。

职位详情

关于这个职位

该职位专注于预训练数据的质量与效率,涉及大规模数据筛选、配比、增强以及训练算法优化

你将参与设计自动化数据流水线,构建端到端高性能系统,对于深入理解 LLM 预训练全流程有极大帮助
适合对数据科学和深度学习有浓厚兴趣的同学

最低要求

年级不限,本科及以上在读,计算机、人工智能、软件工程或相关交叉学科背景优先

拥有卓越的工程实现能力与扎实的算法功底,熟练掌握至少一门主流编程语言及 PyTorch 框架,熟练使用 Code Agent 者优先
深耕机器学习与深度学习领域,具备大型语言模型(LLM)项目实战或大规模预训练实际经验者优先
在 NeurIPS、ICML、COLT、ICLR、CVPR 等顶级会议或期刊上发表相关研究成果者优先
具备出色的沟通与协作能力,自驱力强,敢于担当,乐于与团队共同探索前沿技术,推动技术演进与落地

工作职责

海量数据的高效筛选与质量评估

智能数据配比与动态增强
严谨可复现的算法评测与验证体系
面向预训练效率的训练算法优化
通用场景下可扩展的数据管线设计
端到端自动化高性能数据流水线构建

AI 洞察

优缺点分析

优点

  • 深度参与 LLM 预训练的核心环节,技术壁垒高,积累宝贵经验
  • 小红书的规模化数据场景,能锻炼处理海量数据的实战能力
  • 团队强调前沿探索,有机会接触顶级会议研究成果与应用
  • 预训练数据工作技术难度大,需要较强的算法与工程双重能力
  • 适合对 NLP 和大模型有强烈兴趣,具备扎实机器学习基础,希望在预训练方向深耕的在校学生

缺点 / 挑战

  • 大规模数据处理可能涉及重复性工程工作,需耐心与细心
  • 实习岗位可能需要快速学习和产出,压力相对较大

角色解读

  • 从预训练数据算法入手,逐步深入理解大模型全链路,成为数据算法专家
  • 可转向预训练算法优化、模型微调等方向,发展为高级算法工程师
  • 积累经验后有机会晋升为团队技术负责人或研究员,参与核心模型研发
  • 负责海量预训练数据的高效筛选与质量评估,确保数据质量
  • 设计智能数据配比与动态增强策略,优化数据多样性
  • 构建可复现的算法评测体系,验证数据与模型效果
  • 参与端到端自动化数据流水线开发,提升预训练效率
  • 扎实的编程能力,精通 Python 和 PyTorch,熟悉深度学习框架
  • 深入理解机器学习与深度学习理论,有 LLM 或大规模预训练经验者优先
  • 具备数据工程能力,能设计高效的数据处理与评估管线
  • 良好的沟通协作与自驱力,能独立解决技术难题

申请策略

  • 投递前了解小红书的业务方向(社区、电商等),思考数据如何赋能业务
  • 准备一个与预训练数据相关的项目案例,展示从数据处理到模型效果的全流程
  • 突出 LLM 相关项目经历,如参与过预训练或微调任务
  • 强调数据处理和 Pipeline 构建经验,如自动化数据清洗、质量评估等
  • 展示编程和算法竞赛成绩,或开源贡献(特别是 PyTorch 相关)
  • 如果有顶会论文,务必放在显眼位置
  • 学习并实践 PyTorch 的高级用法,熟悉分布式训练
  • 掌握数据预处理常用工具(如 Hadoop、Spark)及数据增强方法

面试指南

  • 用实例说话:结合具体项目,说明数据筛选方法、效果及改进
  • 展示系统性思维:从数据采集、清洗、配比到评估,完整链路思考
  • 突出工程能力:强调代码实现、性能优化及自动化工具使用
  • 如何评估大规模预训练数据的质量?有什么具体指标?
  • 描述你参与过的 LLM 或深度学习项目,遇到过哪些数据挑战?
  • 解释数据配比(Data Mixing)对预训练模型效果的影响
  • 如何设计一个高效的数据 Pipeline 来处理 TB 级文本数据?
  • 你了解哪些预训练算法优化技术(如数据效率、训练动态)?

匹配度报告

59
综合匹配度

大厂算法实习,前沿 LLM 预训练方向,技能成长性好,但薪酬福利一般。

适合人群
该职位最适合注重技能成长和技术前沿探索的求职者,但对薪资福利敏感者可能不太满意。
最强匹配
成长发展匹配
最弱匹配
薪资福利匹配
薪资福利40
成长发展85
工作生活50
使命价值60

薪资福利匹配

40较低

实习岗位薪资有限,未提及福利,补偿性动机满足程度较低。

薪资信号未披露(AI估算:8K-12K/月)

成长发展匹配

85较高

该职位位于前沿技术领域,工作内容与 LLM 预训练高度相关,能快速积累核心技能,发展性动机较好。

技术前沿前沿/新兴技术
技术栈Python、PyTorch、LLM、机器学习、深度学习、数据预处理
业务类型profit_center

工作生活匹配

50较低

未提及远程或弹性工作,需现场办公,一线城市通勤压力较大,但作为实习工作强度可能适中。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

AI 行业高速增长,但职位本身未强调社会价值,意义感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • 【Dots】AI Native产品经理

    小红书 · 北京市
    AI 估算 · 20k-40k
  • HR实习生

    小红书 · 上海市
    AI 估算 · 4k-6k
  • 国际化PE实习生

    小红书 · 上海市
    AI 估算 · 4k-8k
  • 招聘运营实习生

    小红书 · 北京市
    AI 估算 · 4k-6k
  • Product Engineer(AI全栈偏移动端)- 直播电商

    小红书 · 上海市
    AI 估算 · 25k-40k

相似职位推荐

  • 推荐算法工程师-【流量策略】

    快手 · 北京市
    AI 估算 · 25k-50k
  • Requirements Management

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • SET Lead Chemistry

    大众汽车 · 大连市
    AI 估算 · 18k-28k
  • Materials Part Owner 1

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • 视觉算法工程师(视觉生成方向)

    中国平安 · 深圳市
    AI 估算 · 35k-55k

小红书 的其他在招职位

  • 【Dots】AI Native产品经理

    小红书 · 北京市
    AI 估算 · 20k-40k
  • HR实习生

    小红书 · 上海市
    AI 估算 · 4k-6k
  • 国际化PE实习生

    小红书 · 上海市
    AI 估算 · 4k-8k
  • 招聘运营实习生

    小红书 · 北京市
    AI 估算 · 4k-6k
  • Product Engineer(AI全栈偏移动端)- 直播电商

    小红书 · 上海市
    AI 估算 · 25k-40k

相似职位推荐

  • 推荐算法工程师-【流量策略】

    快手 · 北京市
    AI 估算 · 25k-50k
  • Requirements Management

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • SET Lead Chemistry

    大众汽车 · 大连市
    AI 估算 · 18k-28k
  • Materials Part Owner 1

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • 视觉算法工程师(视觉生成方向)

    中国平安 · 深圳市
    AI 估算 · 35k-55k