美团的【基座大模型北斗实习】CodeAgent 后训练方向薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【基座大模型北斗实习】CodeAgent 后训练方向的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及其它工作经验。

🤖 AI 估测：¥8K-15K

发布时间：22 天前

这是一个专注于基座大模型后训练（Post-training）的实习岗位，旨在解决大模型在处理复杂表格与混合文本时的理解瓶颈，并提升其数值逻辑推理能力

你将通过构建强化学习闭环和过程奖励模型，让模型在与真实商业数据的交互中自我进化，从而赋予机器类似顶尖数据科学家的洞察力

【核心探索】

异构数据理解与数值推理：突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈

探索基于真实商业数据（如百万级复杂 CSV/Excel 结构）的表征优化与微调，大幅提升模型对数值规律的敏感度与跨表关联推理能力

Agentic RL 与数据环境交互：摒弃传统 RLHF，构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环

让模型在与海量数据的反复试错中，实现代码编写与数据清洗能力的自我进化

复杂推理与过程奖励（PRM）：针对多步业务分析任务，构建细粒度的过程奖励模型

研究 Test-Time Compute 策略，引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错，拉升逻辑推理天花板

有好奇心，敢想敢做，学习能力强，能在复杂问题的深度思考与拆解能力

在 Agentic RL、过程奖励（PRM）或复杂代码推理等方向有深入研究及顶会论文发表（ACL/EMNLP/NeurIPS/ICLR/KDD 等）

有OpenClaw、Claude code深度使用经验与产出优先