腾讯的微信-WeLM 大模型 RL 环境构建研发工程师（深圳、上海）薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

微信-WeLM 大模型 RL 环境构建研发工程师（深圳、上海）的工作地点在哪里？

该职位工作地点位于北京市、上海市、深圳市。工作形式为仅现场办公。

该职位要求学历未注明学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：大约 1 个月前

这是一个专注于大模型强化学习（RL）环境构建的研发工程师岗位

你将负责设计并实现用于RL训练的隔离沙箱环境，优化模型与环境的交互协议，并构建自动化评测体系来评估模型在特定任务上的执行能力

这是一个技术深度与工程实践并重的前沿岗位

环境沙箱构建：设计并实现支持 RL环境执行代码、操作 API 或进行多步推理的隔离沙箱环境（基于 Docker, WebAssembly 或 VM）

交互协议定义：优化 RL 训练与环境之间的 Observation/Action 循环，提升工具调用的准确率

自动化评价体系：构建针对特定场景（如数据分析、自动化办公、软件工程）的评测基座（Benchmark），客观衡量执行成功率

前沿技术探索：研究如何通过环境反馈（Environment Feedback）进行强化学习（RLHF/RLAIF），加速模型的迭代进化

扎实的计算机基础：优秀的编程能力（Python/Go/C++ 至少精通一门），熟悉 Linux 系统和容器化技术

熟悉 ReAct、AutoGPT、LangChain 或 AutoGen 等开源框架，对 LLM 调用工具有实战经验或深度思考

解决问题的韧性：RL 执行环境往往涉及复杂的依赖管理和安全隔离，需要你有较强的 Debug 能力和工程直觉

微信-WeLM 大模型 RL 环境构建研发工程师（深圳、上海）

🤖 AI 估测：¥35K-60K

发布时间：大约 1 个月前