深入挖掘研发全生命周期痛点,设计并实现基于 LLM 的自动化工作流,覆盖需求分析、代码辅助、自动化测试等核心环节
负责复杂 Agent 的逻辑设计与工程落地,通过高级 Prompt Engineering(CoT, Few-Shot, ReAct)优化智能体的规划与执行能力
构建针对产研场景的 Benchmark(评测集) 和 Golden Datasets(黄金数据集)
建立自动化评估流水线(Eval Pipeline),以量化指标(如代码通过率、推理准确率、任务完成耗时)对比不同模型与 Prompt 的效果,用数据指导技术选型
基于 Claude Code 和 Codex 技术,开发高度定制化的 IDE 插件或 CLI 工具,将 AI 代码生成能力无缝融入现有开发环境,提升代码编写质量与交付速度