Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

PINGAN logo
中国平安
云架构专家工程师(智算)
立即应聘

云架构专家工程师(智算)

发布于 大约 14 小时前

普通员工/个人贡献者

深圳市
专家级经验
全职员工
仅现场办公
本科
GPU
MLOps
CI/CD
RDMA
NVLINK
TensorRT
SGLang
vLLM
容器运行时
Mindie

AI 估算 · 60k–90k

深圳巨头企业云架构专家,技术门槛高,市场稀缺,薪资竞争力强

职位详情

关于这个职位

作为云架构专家工程师,你将负责智算平台的架构设计与优化,专注于大规模GPU/国产算力集群的构建和调优,提升LLM训练和推理的性能与效率

加入中国平安,你将参与前沿技术如Kubernetes、RDMA、vLLM等的应用,推动AI基础设施的演进

最低要求

)计算机、人工智能等相关专业,本科及以上学历

)8年以上基础设施、云原生、智算或算法平台架构设计或研发经验,熟悉云原生、智算平台、大模型训练/推理等领域
)精通Kubernetes、GPU容器运行时、Device Plugin、Hived、Volcano等云原生技术,具备大规模计算集群的设计、部署或运维经验
熟悉CI/CD流程,熟悉MLOps模型训练及推理的部署流程
)有GPU/国产算力集群的构建和优化经验,能够分析并解决分布式环境中的性能瓶颈,熟悉大规模训练和推理下的运维和排障,具备全链路可观测性设计能力和故障定位能力
)熟悉大规模智算集群的网络拓扑、通信协议(RoCE)与通信模式(如RDMA、NVLink、InfiniBand等),熟悉AllReduce、All-to-All等集合通信进行性能测试及调优
)有推理引擎设计或研发经验,熟悉vLLM、SGlang、TensorRT、Dynamo、MindIE等推理引擎,熟悉PD分离、大EP、AF分离、KVCache等推理加速技术
)出色的沟通能力,善于跨团队协作,具有支持多团队AI项目的经验

工作职责

)负责智算平台规划与架构设计,结合BU业务场景,制定技术路线,明确智算平台、LLM训推及工具生态的核心功能与技术架构

)优化并提升模型训练(微调/强化学习)、模型推理算力使用率
深入优化平台资源管理及调度能力,包括GPU/国产算力、内存/显存、RDMA网络等,提升系统的可靠性、性能和扩展性
)LLM推理引擎优化,通过PD分离、EP并行、算子调优、网络或存储调优等技术提高推理引擎性能降低Tokens单位成本
)LLM全链路性能监控,建立性能指标体系(吞吐量、时延、资源利用率),输出调优方案、标准与自动化诊断工具
)负责LLM基础模型和配套推理引擎的引入、适配、优化及性能基线评测,为业务提供最优性价比的模型和推理引擎

AI 洞察

优缺点分析

  • 身处智算技术前沿,可接触到最先进的大模型训推技术
  • 大平台资源充足,职业发展空间大,稳定性高
  • 技术深度高,能构建稀缺的GPU集群调优能力,市场价值高
  • 技术复杂度极高,需要持续学习最新分布式和AI框架
  • 工作强度可能较大,尤其是在模型训练调优的瓶颈期
  • 跨团队协作要求高,需兼顾业务需求与技术架构平衡
  • 适合对大规模分布式计算和AI基础设施有深厚兴趣,乐于挑战高难度技术问题,且希望在头部平台深耕的资深技术人才

角色解读

  • 技术专家路线:深入智算平台底层优化,成为分布式计算领域的权威
  • 架构师路线:从单一平台扩展到整个AI基础设施,主导技术演进
  • 管理路线:带领团队负责智算平台建设,转向技术管理方向
  • 设计并规划智算平台的整体架构,制定技术路线图
  • 优化GPU/国产算力集群的调度与资源利用率,提升模型训练和推理性能
  • 负责LLM推理引擎的调优与适配,降低单位成本
  • 精通云原生技术栈,如Kubernetes、容器运行时、Volcano等
  • 深理解大规模分布式训练和推理的运维与调优,熟悉RDMA、NVLink等高速网络
  • 熟悉主流推理引擎如vLLM、TensorRT,掌握PD分离、EP并行等加速技术

申请策略

  • 了解平安的AI业务场景,在面试中注意结合金融科技应用来展示自己的适配性
  • 准备好深入的技术方案论述,例如如何优化PD分离或网络拓扑
  • 突出大规模GPU集群的架构设计与部署经验,最好有千卡以上案例
  • 详细描述在推理引擎优化方面的具体成果,如吞吐提升、成本降低等量化指标
  • 展示对云原生技术和网络通信协议的深入理解,可附上相关项目或开源贡献
  • 补充学习最新推理引擎如SGlang、Dynamo的实践
  • 训练自己使用性能监控和全链路可观测性工具,如Prometheus、Grafana、分布式追踪

面试指南

  • STAR方法:情境、任务、行动、结果,量化成果
  • 结构化思考:从网络、存储、计算、调度等多个层面分析问题
  • 强调动手实践:结合具体工具和参数调整,展示经验
  • 请描述一次你优化大规模GPU集群性能的经历,遇到了哪些瓶颈,如何解决?
  • Kubernetes中调度GPU资源的核心组件有哪些?如何确保容器间NVLink带宽不争抢?
  • 在LLM推理中,PD分离是什么?如何实现,能带来多少性能提升?
  • 如何设计和实施全链路的性能监控体系?关键指标有哪些?
  • 假设我们需要将训练吞吐提升20%,请给出你的调优思路

匹配度报告

74
综合匹配度

大厂云架构专家,前沿技术栈,高薪资高成长,但WLB一般

适合人群
适合高度追求技术成长、不介意现场办公和可能高强度的求职者
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活50
使命价值75

薪资福利匹配

80较高

薪资水平偏高,大厂福利完善,但JD未明确说明福利细节。

薪资信号面议 (60K-90K/月)

成长发展匹配

90较高

技术栈前沿,涉及LLM、智算、云原生等高速发展领域,成长空间大。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU、LLM、vLLM、RDMA、Volcano、MindIE
业务类型ambiguous

工作生活匹配

50较低

现场办公且未提及弹性工作,可能工作强度较高。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

75中等

属于AI基础设施核心岗位,推动智能化转型,但社会影响力间接。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

中国平安 的其他在招职位

  • 咨询顾问(合肥一咨)

    中国平安 · 合肥市
    AI 估算 · 6k-15k
  • 咨询顾问

    中国平安 · 商丘市
    AI 估算 · 6k-10k
  • 咨询顾问

    中国平安 · 武汉市
    AI 估算 · 8k-15k
  • 私行财富部总经理

    中国平安 · 徐州市
    AI 估算 · 30k-60k
  • 综合业务分部客户经理

    中国平安 · 温州市
    AI 估算 · 6k-12k

中国平安 的其他在招职位

  • 咨询顾问(合肥一咨)

    中国平安 · 合肥市
    AI 估算 · 6k-15k
  • 咨询顾问

    中国平安 · 商丘市
    AI 估算 · 6k-10k
  • 咨询顾问

    中国平安 · 武汉市
    AI 估算 · 8k-15k
  • 私行财富部总经理

    中国平安 · 徐州市
    AI 估算 · 30k-60k
  • 综合业务分部客户经理

    中国平安 · 温州市
    AI 估算 · 6k-12k