评测体系与基准构建: 负责构建覆盖 FPS、RPG 等多品类游戏的智能体评测基准(Benchmark),设计科学、全面、客观的多维度评估指标与覆盖长尾的测试集,真实反映模型在复杂游戏环境下的性能表现
自动化管线与平台研发:设计并实现可扩展、高效、稳定的自动化评测流水线(Pipeline),支持大规模并行游戏对局运行、评测指标计算
行为评估机制: 研发行为相似度算法,量化智能体与人类玩家在视觉观测与操作序列上的差异,验证 VLA 模型的对齐效果
对抗评测机制: 设计新旧模型对战、人机对战等对抗机制,验证智能体策略的强度稳定性与竞技表现
技术追踪: 持续追踪业界最新的AI评测方法论,不断完善评测矩阵,保持技术领先性