
普通员工/个人贡献者
AI 估算 · 25k–45k
AI评估工程岗需LLM和系统经验,B轮公司有期权,薪资具竞争力,中位数约35k/月。
职位负责构建和维护模型评估系统,确保模型在迭代和发布时的质量与一致性
年以上软件工程经验,精通 Python 编程,包括生产或研究基础设施,具备构建或运维分布式系统、数据管道或其他需要大规模可靠性的基础设施的经验
构建一体化评估系统:* 定义并且持续改进 Agent Eval Platform,维护 Internal Benchmark,支持在不同的 harness 以及 Eval 策略下灵活评估,优化线上监控与评估体系,打通在线评估与离线评估的闭环
具备从零开始搭建一套新的评估体系,用于测试特定的 Agent 能力——从定义任务、构建数据集、实现评分机制、根据已知信号进行验证,并最终交付一个清晰易懂的仪表盘,展示评估结果
优点
缺点 / 挑战
暂无明显挑战项
前沿AI评估系统岗,技术成长空间大,薪资面议,节奏快。
职位未披露薪资,但AI领域通常薪资较高,且B轮公司可能有期权,但稳定性一般。
该职位涉及LLM和Agent前沿技术,能深度参与评估体系构建,成长空间大,但未明确提及晋升路径。
仅现场办公,JD描述强调快节奏和快速迭代,暗示较高工作强度,WLB信号缺失。
AI行业处于高速增长赛道,评估系统对产品质量和用户体验有直接正向影响,但社会影响力中性。