模型评测平台研发工程师
🤖 AI 估测:¥35K-60K
发布时间:14 天前
ℹ️关于这个职位
这是一个专注于大语言模型(LLM)评测平台研发的后端工程师岗位
你将负责构建一个支持评测任务编排、框架集成、结果分析与模型对战的平台系统
该职位要求你具备扎实的后端开发、系统设计能力,并对LLM评测方法及云原生技术有深入理解,旨在提升模型评测的效率与自动化水平
✓工作职责
工作职责: 1. 负责模型评测平台的核心研发:评测任务编排与生命周期管理(创建/调度/执行/重试/复现/回归)
2. 接入并统一封装评测框架与工具链(如 LM-Evaluation-Harness、OpenCompass、EvalScope 等),沉淀可复用的 Runner/Adapter
3. 设计评测模板与 Benchmark/指标管理体系:任务模板、参数化配置、评测集版本、指标扩展与校验,提升评测人员自助化能力
4. 构建评测结果存储与查询分析能力:原始输出、样本级明细、汇总指标、对比报表与趋势回归,支持多维度对比与追溯
5. 建设 Arena/对战与榜单能力:多模型对比、盲测/裁判、Leaderboard,支撑内部与开源模型多视角评估
6. 保障平台稳定性与性能:可观测性、故障定位、容量与成本优化、持续交付与快速迭代
⭐最低要求
任职要求: 1. 本科及以上,3 年+后端/平台研发经验(Go/Python/Java 其一或多项),具备良好的系统设计与工程化能力
2. 熟悉任务系统/工作流关键机制:幂等、重试、超时、限流、优先级、队列与资源配额、失败恢复
3. 熟悉常见存储与数据建模:MySQL/Postgres、Redis、对象存储(S3/OSS)以及 OLAP/检索(ClickHouse/ES 任一)
4. 了解 LLM/多模态评测基本方法与常见陷阱(数据污染、随机性、prompt 偏置、可复现性),能将评测需求平台化落地
5. 熟悉 Kubernetes 与云原生生态:Operator / Controller(kubebuilder / controller-runtime)
熟悉内部机制Informer / Cache / Reconcile 6. 具备线上服务稳定性建设经验:监控告警、日志与链路追踪、压测与性能优化、CI/CD
👍优先资格
加分项: 1. 有评测平台/体系建设经验:回归基线、领域评测、RAG/工具调用/长上下文评测,或评测报告自动化
2. 有 Arena/排名相关经验:Elo/Glicko/Bradley–Terry、显著性/置信区间、对战匹配与抽样策略
3. 熟悉云原生与分布式执行:K8s Job/Argo Workflows/Airflow/Celery/Ray 任一
有 GPU 资源调度与成本优化经验更佳
4. 有数据治理与合规实践:数据集版本管理、权限审计、脱敏、血缘与可追溯
5. 有平台产品化经验:模板市场、指标插件化、对比看板/可视化、评测自助化工具设计