米哈游的模型评测平台研发工程师薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

模型评测平台研发工程师的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

米哈游的模型评测平台研发工程师有什么任职要求？

该职位要求本科学历及中级经验工作经验。

模型评测平台研发工程师

🤖 AI 估测：¥35K-60K

发布时间：14 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大语言模型（LLM）评测平台研发的后端工程师岗位

你将负责构建一个支持评测任务编排、框架集成、结果分析与模型对战的平台系统

该职位要求你具备扎实的后端开发、系统设计能力，并对LLM评测方法及云原生技术有深入理解，旨在提升模型评测的效率与自动化水平

✓工作职责

工作职责: 1. 负责模型评测平台的核心研发：评测任务编排与生命周期管理（创建/调度/执行/重试/复现/回归）

2. 接入并统一封装评测框架与工具链（如 LM-Evaluation-Harness、OpenCompass、EvalScope 等），沉淀可复用的 Runner/Adapter

3. 设计评测模板与 Benchmark/指标管理体系：任务模板、参数化配置、评测集版本、指标扩展与校验，提升评测人员自助化能力

4. 构建评测结果存储与查询分析能力：原始输出、样本级明细、汇总指标、对比报表与趋势回归，支持多维度对比与追溯

5. 建设 Arena/对战与榜单能力：多模型对比、盲测/裁判、Leaderboard，支撑内部与开源模型多视角评估

6. 保障平台稳定性与性能：可观测性、故障定位、容量与成本优化、持续交付与快速迭代

⭐最低要求

任职要求: 1. 本科及以上，3 年+后端/平台研发经验（Go/Python/Java 其一或多项），具备良好的系统设计与工程化能力

2. 熟悉任务系统/工作流关键机制：幂等、重试、超时、限流、优先级、队列与资源配额、失败恢复

3. 熟悉常见存储与数据建模：MySQL/Postgres、Redis、对象存储（S3/OSS）以及 OLAP/检索（ClickHouse/ES 任一）

4. 了解 LLM/多模态评测基本方法与常见陷阱（数据污染、随机性、prompt 偏置、可复现性），能将评测需求平台化落地

5. 熟悉 Kubernetes 与云原生生态：Operator / Controller（kubebuilder / controller-runtime）

熟悉内部机制Informer / Cache / Reconcile 6. 具备线上服务稳定性建设经验：监控告警、日志与链路追踪、压测与性能优化、CI/CD

👍优先资格

加分项: 1. 有评测平台/体系建设经验：回归基线、领域评测、RAG/工具调用/长上下文评测，或评测报告自动化

2. 有 Arena/排名相关经验：Elo/Glicko/Bradley–Terry、显著性/置信区间、对战匹配与抽样策略

3. 熟悉云原生与分布式执行：K8s Job/Argo Workflows/Airflow/Celery/Ray 任一

有 GPU 资源调度与成本优化经验更佳

4. 有数据治理与合规实践：数据集版本管理、权限审计、脱敏、血缘与可追溯

5. 有平台产品化经验：模板市场、指标插件化、对比看板/可视化、评测自助化工具设计

核心评价

模型评测平台研发工程师

ℹ️关于这个职位

✓工作职责

⭐最低要求

👍优先资格

米哈游的其他在招职位

相似职位推荐

模型评测平台研发工程师

ℹ️关于这个职位

✓工作职责

⭐最低要求

👍优先资格

米哈游 的其他在招职位

相似职位推荐

米哈游的其他在招职位