MathAgent 挑战赛: 构建具备推理能⼒与系统调度能⼒的数学解题智能体
MathAgent Challenge Competition

构建可调⽤⼤语⾔模型的智能系统,能够在多类型数学题⽬上展现良好的逻辑推理能⼒、可解释性与应⽤潜⼒。

赛题介绍:

随着大语言模型(LLM)在文本生成、对话系统和代码编写等任务上取得突破性进展,构建具备推理能力、结构化表达能力与自主调度能力的 AI 数学智能体(MathAgent)成为人工智能研究中的关键挑战之一。与传统模型输出正确答案不同,MathAgent 更强调模拟人类的解题思维流程,具备理解题意、规划步骤、调用计算资源、验证答案并输出完整推理链条的能力。

本次比赛邀请选手基于两个风格差异显著的数学数据集(MiniF2F 与 GSM8K)训练智能体,并在未知测试集上评估其泛化能力与真实应用场景下的响应能力。我们特别鼓励参赛团队构建具备 LLM 调度机制、外部工具调用、以及错误自我修正等功能的 Agent 系统,以推动 AI 在教育、数学辅导、自动化批改等场景中的实际落地。

比赛任务:

本次竞赛主题为“构建具备推理能力与系统调度能力的数学解题智能体(MathAgent)”。参赛者需构建一个可调用大语言模型的智能系统,能够在多类型数学题目上展现良好的逻辑推理能力、可解释性与应用潜力。智能体需具备如下核心能力:

  1. 多任务适应与跨风格泛化能力:能在不同题型(逻辑推理题与应用题)间迁移。
  2. 推理过程可解释性:能清晰输出每一步推理链,并呈现结构化表达(如公式、代码等)。
  3. Agent 级调度能力:智能体需具备一定调度机制,如动态规划LLM调用策略、选择是否调用外部工具。
  4. 自我验证与纠错机制:支持自我检测和重新尝试的能力,体现 agent 的学习性。
  5. 部署能力(可选):支持 Web / API 接口,展示其在教育/评测/助教中的应用潜力。


数据集说明:

本次竞赛将使用以下两个公开数据集作为训练基础:

1. MiniF2F(训练集1)

由 OpenAI 发布,包含从数学定理证明题库(如 Metamath、Lean、Mizar)中翻译得到的英文数学题,题型涵盖代数、几何、组合数学、逻辑等,强调结构化推理和步骤输出。

  • 共 488 题,含 ground-truth 证明步骤。
  • 多为标准“纯数学题”,要求 agent 具备严密推理链。


2. GSM8K(训练集2)

一个小学数学题数据集,重点在于语言理解 + 数值推理,题型为“应用题+解答题”。

  • 共 8,500+ 标注题目,带 step-by-step 解题链。
  • 更贴近自然语言,适合训练 agent 的语言建模能力。

注意:两个数据集风格差异显著,参赛者需考虑如何构建统一模型或多模型协同,提升泛化性。

匿名测试集

主办方将提供一组匿名测试集(包含高中/大学基础数学问题,题型为自然语言 + 问答式 + LaTeX 表达式),内容涵盖新颖题型,难度跨度大,要求系统具备较强的泛化能力与结构理解能力。


竞赛任务

参赛者需完成以下任务:

  1. 多数据集对齐与泛化训练:设计统一/多模型框架,合理整合 MiniF2F 与 GSM8K 的知识与风格差异,提升模型跨任务泛化能力。
  2. 解题系统设计:构建支持自然语言输入 + 多步推理 + 结构化输出的 AI agent,可选择集成代码辅助模块(如调用 Python/NumPy)提升计算能力。
  3. 答案验证与自我修正机制:为模型设计“答案反思”模块,允许模型对自身结果进行验证、修正或自信度输出。
  4. 答案可解释性输出:输出包括清晰的步骤链(step-by-step)、LaTeX 结构表达、或图示辅助。



点击进入报名参赛