快手的【留用实习】大模型数据工程师薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【留用实习】大模型数据工程师的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

该职位要求本科学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：17 天前

这是一个面向大模型的数据工程实习岗位，核心工作是构建和优化支撑大模型能力的数据底座

你将参与训练数据供给、知识库建设和记忆系统工程三大模块，涉及从数据采集、清洗、质量评估到自动化Pipeline构建的全链路工作

这是一个能让你深入接触AI前沿技术，并积累大规模数据处理实战经验的绝佳机会

【训练数据工程】

参与大模型训练数据的采集、清洗、去重、质量过滤的全链路建设，覆盖文本、图文、行为序列等多类型数据

设计并实现数据质量评估体系，包括规则过滤、模型打分、人工标注一致性分析

参与数据飞轮闭环建设，从线上反馈信号到数据回流、再到模型迭代的自动化链路

基于 Spark / Flink / Ray 等框架构建高吞吐数据处理 Pipeline，支撑 TB 级数据规模

【知识库工程】

参与知识库的工程建设，包括知识采集、结构化抽取、Schema 设计、增量更新 Pipeline

构建知识条目的质量检测与覆盖率监控体系，保障知识的准确性与新鲜度

与 Agent 团队协作，优化知识在 RAG 链路中的召回率与命中精度，闭环分析 bad case

设计知识库的版本管理与回滚机制，支持多业务场景下的差异化知识配置

【记忆系统工程】

参与AI 记忆系统的工程实现，包括用户记忆、会话记忆、场景记忆的写入、检索、更新、淘汰全链路

设计记忆存储方案，在向量数据库、KV 存储、结构化 DB 之间做合理分层，兼顾检索效率与存储成本

构建记忆质量评估体系，包括记忆准确性、召回相关性、对下游 Agent 任务的增益指标

研究记忆压缩、记忆蒸馏、长期记忆管理等前沿方向，结合业务场景落地

本科及以上学历，计算机、统计、信息工程等相关专业

熟练使用 Python，有数据处理实际经验（Pandas / Spark / SQL 均可）

对数据质量有洁癖，理解脏数据对模型的影响

能用 AI 工具加速数据脚本开发，有用 Vibe Coding 方式快速搭建数据 Pipeline 的经验或意愿

有大规模数据 ETL 或数据仓库开发经验

熟悉 Ray Data / Dask / Spark 等分布式数据处理框架

了解大模型数据预处理标准流程（如 RedPajama、Dolma、FineWeb 等开源数据集的构建方法）

理解 RAG 原理，有向量检索（Faiss / Milvus / Elasticsearch）实际使用经验

了解大模型 Memory 机制的主流方案（MemGPT、Zep、mem0 等），或有相关工程实现经验

理解主动学习（Active Learning）或数据选择（Data Selection / Curriculum Learning）方法

有用 AI 工具生成、验证、调试数据处理代码的完整经历，能说清楚 AI 在你工作流中扮演的角色

【留用实习】大模型数据工程师

🤖 AI 估测：¥8K-15K

发布时间：17 天前