Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Xiaohongshu logo
小红书
Dots-【Ace顶尖实习生】面向大模型预训练的高质量数据筛选研究
立即应聘

Dots-【Ace顶尖实习生】面向大模型预训练的高质量数据筛选研究

发布于 2 天前

实习/见习

北京市 / 上海市
无经验要求
实习生
仅现场办公
本科
机器学习
深度学习
PyTorch
NeurIPS
预训练
LLM
数据筛选
大模型
数据管线
Code Agent

AI 估算 · 6k–12k

顶尖实习生岗位,技术前沿竞争激烈,参考互联网大厂实习生薪资区间

职位详情

关于这个职位

该职位专注于大模型预训练数据的智能化处理,探索从原始语料到高质量训练集的自动化构建方法

你将参与设计高效的数据筛选与质量评估机制,构建可扩展的数据管线,并端到端搭建自动化数据流水线,为预训练模型提供高质量数据底座
适合对数据工程和LLM预训练有浓厚兴趣、具备扎实工程能力的同学

最低要求

年级不限,本科及以上在读,计算机、人工智能、软件工程或相关交叉学科背景优先,C9院校优先

拥有卓越的工程实现能力与扎实的算法功底,熟练掌握至少一门主流编程语言及PyTorch框架,熟练使用Code Agent者优先
深耕机器学习与深度学习领域,具备大型语言模型(LLM)项目实战或大规模预训练实际经验者优先
在NeurIPS、ICML、COLT、ICLR、CVPR等顶级会议或期刊上发表相关研究成果者优先
具备出色的沟通与协作能力,自驱力强,敢于担当,乐于与团队共同探索前沿技术,推动技术演进与落地

工作职责

工作职责 本课题聚焦预训练数据的全链路智能化处理,探索从原始语料到高质量训练集的自动化构建方法

研究方向包括但不限于:面向海量数据的高效筛选与质量评估机制、通用场景下可扩展的数据管线设计,以及端到端、自动化的高性能数据流水线构建
通过构建高质量、高效率的数据基础设施,为预训练模型的能力跃升提供数据底座支撑

AI 洞察

优缺点分析

优点

  • 深耕大模型预训练最前沿领域,技术壁垒高,未来发展前景广阔
  • 直接参与核心数据基础设施建设,能快速积累工程与算法经验
  • 小红书作为大型互联网平台,资源丰富,实习经历含金量高
  • 与顶尖团队合作,有机会接触最新研究动态
  • 预训练数据工作技术难度大,需要同时具备算法与工程能力
  • 实习期可能面临高强度研究任务,对自驱力要求高
  • 竞争激烈,入职门槛高,需具备扎实背景和项目经验
  • 适合对数据工程和预训练有强烈兴趣、编程能力强、有志于深耕AI基础设施的顶尖学生

缺点 / 挑战

暂无明显挑战项

角色解读

  • 向数据工程或预训练算法专家方向发展,成长为技术架构师
  • 有机会参与顶级会议论文发表,积累学术影响力
  • 在互联网大厂积累实战经验后,可转向AI核心研发岗或创业
  • 设计并实现面向海量预训练数据的高效筛选与质量评估算法
  • 构建可扩展的数据处理管线,支持从原始语料到训练集的自动化转换
  • 探索端到端的高性能数据流水线,优化数据基础设施
  • 与团队协作,推动前沿技术在数据工程中的落地
  • 扎实的编程功底,熟练掌握Python及PyTorch框架
  • 深入了解机器学习和深度学习,有LLM项目经验优先
  • 具备大规模数据处理经验,熟悉分布式计算或数据流水线工具
  • 良好的沟通与自驱力,能在团队中快速推进工作

申请策略

  • 深入理解小红书在AI数据方面的工作,针对性准备面试
  • 准备一个数据管线设计的小项目或案例,展示解决问题思路
  • 突出LLM相关项目经验,如预训练数据处理或模型微调
  • 强调工程实现能力,如使用PyTorch构建数据处理管线的具体案例
  • 展示学术成果,如顶级会议论文或竞赛获奖
  • 体现团队协作和自驱力,如主导过技术项目或开源贡献
  • 提前学习高效数据处理框架,如Apache Spark、Ray或Dataflow
  • 熟悉数据质量评估相关技术,如去重、清洗、噪声过滤

面试指南

  • STAR法则:描述具体场景、任务、行动和结果,突出数据量级和效果提升
  • 从问题分析到方案设计:先明确目标,再对比不同方案,最后给出选择理由
  • 请描述你处理大规模数据时如何保证数据质量和效率?
  • 如何设计一个面向预训练数据的高效筛选机制?
  • 你使用过哪些分布式数据处理工具?请比较优缺点
  • 谈谈你在LLM项目中的具体贡献和遇到的挑战
  • 你对预训练数据的重要性如何理解?
  • 复习机器学习基础和数据预处理常用方法

匹配度报告

62
综合匹配度

互联网大厂前沿实习,技术顶尖成长快,薪资生活一般

适合人群
最看重技能成长和行业前沿机会,愿意接受高强度工作以获取宝贵经验的求职者
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利45
成长发展95
工作生活30
使命价值80

薪资福利匹配

45较低

该职位为实习生岗位,薪资水平中等,福利信息不明,补偿性动机满足度一般。

薪资信号未披露(AI估算:6K-12K/月)

成长发展匹配

95较高

该职位聚焦前沿技术,提供丰富的技能成长机会,顶级平台和项目经验对职业发展意义重大。

技术前沿前沿/新兴技术
技术栈大模型、预训练、数据筛选、机器学习、深度学习、PyTorch、LLM
业务类型profit_center

工作生活匹配

30较低

实习岗位通常要求现场办公,工作强度可能较大,生活化动机满足度较低。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

80较高

大模型领域是技术前沿,具有较高社会影响力,但实习生岗位使命导向相对间接。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • IT Business Partner

    小红书 · 美国,新加坡
    AI 估算 · 35k-60k
  • 【急招岗位】AI端到端全栈工程师 - iOS/Andr/后端/前端

    小红书 · 北京市
    AI 估算 · 35k-65k
  • 内容数据科学实习生

    小红书 · 上海市
    AI 估算 · 5k-8k
  • 隐私与数据合规实习生

    小红书 · 上海市
    AI 估算 · 4k-6k
  • 公共事务实习生

    小红书 · 北京市
    AI 估算 · 4k-7k

相似职位推荐

  • 算法实习生(孵化)-【主站】

    快手 · 北京市
    AI 估算 · 4k-8k
  • Process Development 2

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • Mechanical Designer 2

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • Part Owner 3

    大众汽车 · 大连市
    AI 估算 · 18k-28k
  • Part Owner 4

    大众汽车 · 大连市
    AI 估算 · 15k-25k

小红书 的其他在招职位

  • IT Business Partner

    小红书 · 美国,新加坡
    AI 估算 · 35k-60k
  • 【急招岗位】AI端到端全栈工程师 - iOS/Andr/后端/前端

    小红书 · 北京市
    AI 估算 · 35k-65k
  • 内容数据科学实习生

    小红书 · 上海市
    AI 估算 · 5k-8k
  • 隐私与数据合规实习生

    小红书 · 上海市
    AI 估算 · 4k-6k
  • 公共事务实习生

    小红书 · 北京市
    AI 估算 · 4k-7k

相似职位推荐

  • 算法实习生(孵化)-【主站】

    快手 · 北京市
    AI 估算 · 4k-8k
  • Process Development 2

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • Mechanical Designer 2

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • Part Owner 3

    大众汽车 · 大连市
    AI 估算 · 18k-28k
  • Part Owner 4

    大众汽车 · 大连市
    AI 估算 · 15k-25k