中国平安的大模型训练算法专家薪资是多少？

该职位薪资范围为 35k–65k（人民币/月）。

大模型训练算法专家的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

中国平安的大模型训练算法专家有什么任职要求？

该职位要求硕士学历及高级经验工作经验。

中国平安

大模型训练算法专家

立即应聘

大模型训练算法专家

发布于大约 2 个月前

基层主管/组长

深圳市

高级经验

全职员工

仅现场办公

硕士

软件工程

深度学习

NLP

强化学习

SFT

金融

模型优化

知识图谱

大模型

AI 估算 · 35k–65k

前沿技术岗位，深圳大厂，硕士5年+经验，市场行情较高。

职位详情

关于这个职位

该职位负责金融领域大模型的引入、训练与优化，包括基座选型、垂类模型微调及训练平台建设

需要带领团队攻克技术难题，推动大模型在业务中落地

适合有5年以上AI经验、精通大模型训练和强化学习算法的高级工程师

最低要求

教育背景：计算机科学、人工智能、数学、统计学或相关专业硕士及以上学历，NLP/知识图谱/机器学习/视觉图像/语音视频等优先

技术能力：精通Python编程语言，熟悉常用数据结构和算法，具备优秀的工程实现能力，熟悉AI code优先

熟悉常用的机器学习、深度学习或者强化学习相关算法，对Transformer架构、gpt/deepseek等主流大模型底座有深入理解

同时具有金融业务知识优先

工作经验：从事AI算法研发相关经验5年以上，具有大模型训练（预训练或后训练）、智能体训练相关实际落地经验

在强化学习、NLP、知识图谱、LLM、对话机器人、多模态、语音、大模型、AIGC、内容建模、用户建模上有丰富的应用落地经验者优先

同时具有金融项目或者业务经验优先

工作职责

大模型基座引入与优化：跟踪前沿大模型技术动态，评估并引入适合金融领域的基座大模型（如deepseek、Qwen等）

金融垂类模型训练与调优：研发数据合成技术，利用金融领域高质量数据生成高质量训练集

基于金融业务场景，设计并实施领域适配的后训练方案，包括但不限于SFT、RL等，确保模型具备金融专业知识与业务理解能力

训练算法工具化与平台建设：持续跟进与实践最新的后训练算法，将行业领先的训练算法（如SFT/DPO/GRPO等）封装为标准化工具，降低技术使用门槛，提升团队研发效率

构建完整的大模型训练与评估平台，支持从数据准备、模型训练到性能评估的全链路工作

研究模型训练和推理优化技术，包括高效训练框架、模型小型化（稀疏化、压缩、剪枝、蒸馏）等，确保技术方案的成本效益与可扩展性

技术研究、团队引领与落地推动：跟踪大模型领域最新研究成果，特别关注金融垂类模型的前沿进展，定期输出技术研究报告

领导模型训练方向，开展研发工作，制定技术路线图，指导团队成员解决关键技术难题

与业务和开发部门紧密合作，理解金融业务需求，将大模型技术转化为实际业务价值

优先资格

在AI/ML顶级会议（NeurIPS、ICML、ACL等）发表过相关论文，或顶级AI竞赛获奖，或参与过知名开源大模型项目贡献者优先

AI 洞察

优缺点分析

优点

身处金融科技前沿，接触最先进的大模型技术，技能积累快
平安作为巨头企业，资源丰富，平台稳定，项目影响力大
金融领域对AI需求旺盛，职业发展空间广阔，薪资竞争力强
团队领导角色，能锻炼管理和技术决策能力
金融业务合规要求高，模型落地需谨慎，可能面临反复迭代
大公司流程较多，跨部门协作可能影响效率
适合热爱技术、追求前沿、有较强自驱力和抗压能力的高级算法工程师，愿意在金融科技领域深耕

缺点 / 挑战

技术难度高，需要持续学习跟进最新论文和算法，压力较大

角色解读

技术方向：从大模型训练专家成长为首席科学家或技术VP，引领公司AI战略
管理方向：带团队规模扩大，晋升为部门总监或AI研究院负责人
业务方向：深入金融业务，成为金融AI解决方案架构师，推动业务创新
评估和引入适合金融业务的基座大模型，并针对金融场景进行后训练（SFT、RL等）优化
研发数据合成技术，利用金融高质量数据生成训练集，提升模型的金融专业能力
搭建标准化训练工具和全链路平台，推动训练流程自动化和效率提升
带领团队跟踪前沿技术，制定技术路线图，并与业务部门协作完成落地
精通Python和深度学习框架，熟悉Transformer架构和大模型原理
深入理解SFT、RL、DPO、GRPO等后训练算法，有实际大模型训练经验
具备强化学习、NLP或知识图谱等领域经验，熟悉模型压缩、蒸馏等优化技术
有团队管理或技术领导经验，能够指导团队解决难题并推动项目

申请策略

了解平安的金融业务场景，思考大模型可落地的具体方向（如智能投顾、风控、客服）
准备一个技术分享案例，展示你在某个项目中的技术决策和团队领导力
突出大模型训练（预训练或后训练）的实际项目经验，包括数据构建、模型调优和效果评估
强调在强化学习、NLP等领域的论文或竞赛成果，特别是NeurIPS、ICML等顶会
展示开源贡献或工具开发经历，体现工程化和平台建设能力
如有金融相关项目经验，务必重点说明业务理解和技术转化成果
提前熟悉DeepSeek、Qwen等主流开源大模型的使用和微调方法
补充强化学习算法知识，特别是PPO、GRPO等与LLM结合的最新方法

面试指南

STAR原则：情境、任务、行动、结果，结构化描述项目经验
对比分析法：比较不同技术方案的优缺点，展示深度理解
问题解决框架：先定位问题根因，再提出多种方案，最后讲决策依据
请详细描述你在大模型训练中的一个实际项目，包括数据准备、模型选择、训练策略和最终效果
比较SFT、RLHF、DPO的区别和适用场景，你更倾向哪种方法？为什么？
如何评估大模型在金融领域的表现？你会设计哪些指标？
你如何带领团队解决训练效率低或模型不收敛的问题？举例说明
如果让你为平安设计一个金融大模型，你会考虑哪些关键步骤和风险？

匹配度报告

综合匹配度

金融科技大厂，大模型前沿技术，团队领导岗，薪资高但WLB一般。

适合人群

该职位最适合发展动机强的求职者，追求技术成长和领导力锻炼，能接受高强度工作。

最强匹配

成长发展匹配

最弱匹配

工作生活匹配

薪资福利80

成长发展90

工作生活40

使命价值70

薪资福利匹配

80较高

未披露薪资，但平安为上市巨头，通常提供有竞争力的薪酬和完整福利体系。

薪资信号未披露（AI估算：35K-65K/月）

成长发展匹配

90较高

技术栈为大模型前沿，带领团队，成长空间巨大，但未明确提及晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、深度学习、强化学习、SFT、RL、DPO、GRPO、Transformer、DeepSeek、Qwen、NLP、知识图谱、模型优化

业务类型ambiguous

工作生活匹配

40较低

仅现场办公，未提及WLB，大厂金融科技岗位工作强度可能较大。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值匹配

70中等

金融科技属于高速增长行业，但社会影响力中性，技术创新积极。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

中国平安

大模型训练算法专家

立即应聘

大模型训练算法专家

发布于大约 2 个月前

基层主管/组长

深圳市

高级经验

全职员工

仅现场办公

硕士

软件工程

深度学习

NLP

强化学习

SFT

金融

模型优化

知识图谱

大模型

AI 估算 · 35k–65k

前沿技术岗位，深圳大厂，硕士5年+经验，市场行情较高。