腾讯的腾讯广告-算法工程师-强化学习方向薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

腾讯广告-算法工程师-强化学习方向的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

该职位要求硕士学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：大约 1 个月前

这是一个专注于强化学习方向的算法工程师职位，你将负责腾讯广告业务中多目标排序算法的开发与优化

核心工作包括设计并改进强化学习算法框架，解决延迟奖励稀疏性等业务难题，并构建仿真与评估闭环来量化算法效果

你需要具备扎实的理论基础和实战经验，将前沿技术应用到广告推荐系统中

多目标强化学习算法开发与调优

基于业务场景构建DQN、PPO、SAC等算法的改进框架，针对延迟奖励稀疏性设计分层强化学习架构

搭建离线仿真环境与在线AB测试闭环，设计动态滑动窗口评估机制，量化算法迭代效果

效果瓶颈分析与突破

构建强化学习可解释性分析工具（如SHAP值、注意力热力图），定位状态表征缺失/奖励函数偏差/探索不足等瓶颈

设计课程学习机制，通过渐进式难度提升策略解决稀疏奖励场景下的策略退化问题

状态与奖励机制创新

构建异构特征融合模型，集成用户实时行为序列（LSTM）、跨场景偏好迁移（Meta Learning）等高阶状态表征

设计复合奖励函数，融合稠密奖励（点击行为）与稀疏奖励（购买行为），引入基于KL散度的奖励塑形技术

跟踪深度学习、计算广告、推荐系统，deepseek等最新前沿技术，应用到多目标排序

计算机/统计学/运筹学硕士及以上学历，1-3年强化学习实战经验

扎实的强化学习理论基础，掌握MDP、贝尔曼方程等核心理论框架，深入理解DQN、PPO、DDPG等算法原理，具备改进算法效率和稳定性能力

同时有传统机器学习和深度学习知识背景，熟悉Transformer/Attention等原理和应用

扎实的编程基础（Python/Java/Scala），熟悉Linux开发环境

丰富的实战经验，精通TensorFlow/pyTorch等强化学习框架使用，熟悉Spark/Flink 大数据计算框架

需保持强烈技术好奇心，主动学习各种前沿技术并实践落地，鼓励创新

有KDD/WWW等顶会发表过RL相关论文者优先

腾讯广告-算法工程师-强化学习方向

🤖 AI 估测：¥35K-60K

发布时间：大约 1 个月前