MathAgent 挑战赛：构建具备推理能力与系统调度能力的数学解题智能体

MathAgent 挑战赛：构建具备推理能力与系统调度能力的数学解题智能体
MathAgent Challenge Competition

构建可调用大语言模型的智能系统，能够在多类型数学题目上展现良好的逻辑推理能力、可解释性与应用潜力。

赛题介绍：

随着大语言模型（LLM）在文本生成、对话系统和代码编写等任务上取得突破性进展，构建具备推理能力、结构化表达能力与自主调度能力的 AI 数学智能体（MathAgent）成为人工智能研究中的关键挑战之一。与传统模型输出正确答案不同，MathAgent 更强调模拟人类的解题思维流程，具备理解题意、规划步骤、调用计算资源、验证答案并输出完整推理链条的能力。

本次比赛邀请选手基于两个风格差异显著的数学数据集（MiniF2F 与 GSM8K）训练智能体，并在未知测试集上评估其泛化能力与真实应用场景下的响应能力。我们特别鼓励参赛团队构建具备 LLM 调度机制、外部工具调用、以及错误自我修正等功能的 Agent 系统，以推动 AI 在教育、数学辅导、自动化批改等场景中的实际落地。

比赛任务：

本次竞赛主题为“构建具备推理能力与系统调度能力的数学解题智能体（MathAgent）”。参赛者需构建一个可调用大语言模型的智能系统，能够在多类型数学题目上展现良好的逻辑推理能力、可解释性与应用潜力。智能体需具备如下核心能力：

多任务适应与跨风格泛化能力：能在不同题型（逻辑推理题与应用题）间迁移。
推理过程可解释性：能清晰输出每一步推理链，并呈现结构化表达（如公式、代码等）。
Agent 级调度能力：智能体需具备一定调度机制，如动态规划LLM调用策略、选择是否调用外部工具。
自我验证与纠错机制：支持自我检测和重新尝试的能力，体现 agent 的学习性。
部署能力（可选）：支持 Web / API 接口，展示其在教育/评测/助教中的应用潜力。

数据集说明：

本次竞赛将使用以下两个公开数据集作为训练基础：

1. MiniF2F（训练集1）

由 OpenAI 发布，包含从数学定理证明题库（如 Metamath、Lean、Mizar）中翻译得到的英文数学题，题型涵盖代数、几何、组合数学、逻辑等，强调结构化推理和步骤输出。

共 488 题，含 ground-truth 证明步骤。
多为标准“纯数学题”，要求 agent 具备严密推理链。

2. GSM8K（训练集2）

一个小学数学题数据集，重点在于语言理解 + 数值推理，题型为“应用题+解答题”。

共 8,500+ 标注题目，带 step-by-step 解题链。
更贴近自然语言，适合训练 agent 的语言建模能力。

注意：两个数据集风格差异显著，参赛者需考虑如何构建统一模型或多模型协同，提升泛化性。

匿名测试集

主办方将提供一组匿名测试集（包含高中/大学基础数学问题，题型为自然语言 + 问答式 + LaTeX 表达式），内容涵盖新颖题型，难度跨度大，要求系统具备较强的泛化能力与结构理解能力。

竞赛任务

参赛者需完成以下任务：

多数据集对齐与泛化训练：设计统一/多模型框架，合理整合 MiniF2F 与 GSM8K 的知识与风格差异，提升模型跨任务泛化能力。
解题系统设计：构建支持自然语言输入 + 多步推理 + 结构化输出的 AI agent，可选择集成代码辅助模块（如调用 Python/NumPy）提升计算能力。
答案验证与自我修正机制：为模型设计“答案反思”模块，允许模型对自身结果进行验证、修正或自信度输出。
答案可解释性输出：输出包括清晰的步骤链（step-by-step）、LaTeX 结构表达、或图示辅助。

点击进入报名参赛