AI Lab - LLM Applied Evaluation and Benchmark Intern的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

AI Lab - LLM Applied Evaluation and Benchmark Intern

🤖 AI 估测：¥6K-10K

发布时间：大约 1 个月前

这是一个面向在校学生的AI大模型应用测评实习生岗位

你将专注于Chatbot、ChatBI等大语言模型（LLM）应用在汽车与工业领域的测试、评估与优化工作，通过构建评测体系、分析模型问题来提升AI系统的质量与可靠性

设计并执行大模型应用评测：针对Chatbot与ChatBI等应用，设计系统化测试方案，包括功能测试、逻辑测试与边界测试

构建评测数据与指标体系：构建评测数据集，并设计评估指标（如准确率、鲁棒性、一致性、幻觉率等）

参与Agent应用搭建与测试：参与AI Agent系统的构建与测试，验证多步骤推理与工具调用能力

执行模型输出评估：结合人工评测与自动评测（如LLM-as-a-judge）评估模型输出质量

分析模型问题与行为：识别模型幻觉、逻辑错误、偏差等问题，并提出优化建议

数据处理与脱敏：进行数据清洗与脱敏（如匿名化、掩码处理），确保符合数据隐私要求

撰写评测报告：输出评测方法、结果分析及优化建议，并向相关方汇报

向团队成员和相关方展示成果与洞察

计算机科学 / 数据科学 / 人工智能或相关专业本科或研究生在读

熟悉软件测试方法：了解测试用例设计、边界测试与逻辑验证

具备良好的逻辑分析能力：能够系统性设计评测场景并识别问题

熟悉大语言模型（LLM）相关技术：如Prompt工程、RAG、Agent框架等

熟悉Python或其他编程语言：具备基础数据处理能力

了解数据隐私与脱敏方法：如匿名化、数据掩码等

具备良好的学习能力、问题解决能力和团队合作精神

有Chatbot或数据问答相关经验者优先

熟悉AI开发框架（如LangChain、LlamaIndex、OpenAI API）者优先

有SQL或数据分析经验者优先（适用于ChatBI场景）