Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/美团/【基座大模型北斗实习】CodeAgent 后训练方向
Meituan logo
M
美团 (Meituan)

职位信息

北京市
其它
实习生
仅现场办公
学历未注明
实习/见习

标签

强化学习代码生成大语言模型Agentic RlOpenclawClaude Code异构数据处理数值推理过程奖励模型
💡

核心评价

顶尖大厂AI研究实习,技术前沿挑战大,成长空间巨大,适合追求深度发展的技术人才。

【基座大模型北斗实习】CodeAgent 后训练方向

🤖 AI 估测:¥8K-15K

发布时间:22 天前

立即应聘

ℹ️关于这个职位

这是一个专注于基座大模型后训练(Post-training)的实习岗位,旨在解决大模型在处理复杂表格与混合文本时的理解瓶颈,并提升其数值逻辑推理能力
你将通过构建强化学习闭环和过程奖励模型,让模型在与真实商业数据的交互中自我进化,从而赋予机器类似顶尖数据科学家的洞察力

✓工作职责

【核心探索】
异构数据理解与数值推理: 突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈
探索基于真实商业数据(如百万级复杂 CSV/Excel 结构)的表征优化与微调,大幅提升模型对数值规律的敏感度与跨表关联推理能力
Agentic RL 与数据环境交互: 摒弃传统 RLHF,构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环
让模型在与海量数据的反复试错中,实现代码编写与数据清洗能力的自我进化
复杂推理与过程奖励(PRM): 针对多步业务分析任务,构建细粒度的过程奖励模型
研究 Test-Time Compute 策略,引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错,拉升逻辑推理天花板

⭐最低要求

有好奇心,敢想敢做,学习能力强,能在复杂问题的深度思考与拆解能力
在 Agentic RL、过程奖励(PRM)或复杂代码推理等方向有深入研究及顶会论文发表(ACL/EMNLP/NeurIPS/ICLR/KDD 等)

👍优先资格

有OpenClaw、Claude code深度使用经验与产出优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 招聘负责人

    美团

    上海市 · 仅现场办公

  • Operations Data Analyst Intern

    美团

    北京市 · 仅现场办公

  • 广州经营主管

    美团

    佛山市 · 仅现场办公

  • 核心本地商业招聘经理-上海

    美团

    上海市 · 仅现场办公

  • 生产主管

    美团

    广州市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公