【核心探索】
异构数据理解与数值推理: 突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈
探索基于真实商业数据(如百万级复杂 CSV/Excel 结构)的表征优化与微调,大幅提升模型对数值规律的敏感度与跨表关联推理能力
Agentic RL 与数据环境交互: 摒弃传统 RLHF,构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环
让模型在与海量数据的反复试错中,实现代码编写与数据清洗能力的自我进化
复杂推理与过程奖励(PRM): 针对多步业务分析任务,构建细粒度的过程奖励模型
研究 Test-Time Compute 策略,引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错,拉升逻辑推理天花板