AI Lab - LLM Applied Evaluation and Benchmark Intern

🤖 AI 估测:¥6K-10K

发布时间:大约 1 个月前

立即应聘

ℹ️关于这个职位

这是一个面向在校学生的AI大模型应用测评实习生岗位
你将专注于Chatbot、ChatBI等大语言模型(LLM)应用在汽车与工业领域的测试、评估与优化工作,通过构建评测体系、分析模型问题来提升AI系统的质量与可靠性

工作职责

设计并执行大模型应用评测:针对Chatbot与ChatBI等应用,设计系统化测试方案,包括功能测试、逻辑测试与边界测试
构建评测数据与指标体系:构建评测数据集,并设计评估指标(如准确率、鲁棒性、一致性、幻觉率等)
参与Agent应用搭建与测试:参与AI Agent系统的构建与测试,验证多步骤推理与工具调用能力
执行模型输出评估:结合人工评测与自动评测(如LLM-as-a-judge)评估模型输出质量
分析模型问题与行为:识别模型幻觉、逻辑错误、偏差等问题,并提出优化建议
数据处理与脱敏:进行数据清洗与脱敏(如匿名化、掩码处理),确保符合数据隐私要求
撰写评测报告:输出评测方法、结果分析及优化建议,并向相关方汇报
向团队成员和相关方展示成果与洞察

最低要求

计算机科学 / 数据科学 / 人工智能或相关专业本科或研究生在读
熟悉软件测试方法:了解测试用例设计、边界测试与逻辑验证
具备良好的逻辑分析能力:能够系统性设计评测场景并识别问题
熟悉大语言模型(LLM)相关技术:如Prompt工程、RAG、Agent框架等
熟悉Python或其他编程语言:具备基础数据处理能力
了解数据隐私与脱敏方法:如匿名化、数据掩码等
具备良好的学习能力、问题解决能力和团队合作精神

👍优先资格

有Chatbot或数据问答相关经验者优先
熟悉AI开发框架(如LangChain、LlamaIndex、OpenAI API)者优先
有SQL或数据分析经验者优先(适用于ChatBI场景)