Kaggle赛题解析:AI数学奥赛挑战赛

  • 赛题名称:AI Mathematical Olympiad - Progress Prize 1
  • 赛题类型:大模型、数学奥赛
  • 赛题任务:使用大模型解决数学挑战

AI Mathematical Olympiad - Progress Prize 1 | Kaggle

比赛背景

数学推理能力是人工智能发展的重要里程碑。数学推理是解决许多复杂问题的基础,从工程奇迹到复杂的金融模型。然而,当前人工智能在这一领域的能力还存在一定限制。

人工智能数学奥林匹克奖(AIMO)是一个新的1000万美元奖金基金,旨在激励开发出能够与国际数学奥林匹克竞赛(IMO)顶尖人类选手表现一样出色的人工智能模型。这个比赛包括110个类似于中级高中数学挑战的问题。这些问题的Gem7B基准值是在公共和私有测试集上分别为3/50。

为了解决这一挑战,本次比赛使用了由国际问题解决团队创建的110个新颖的数学问题数据集,认识到需要一个透明和公平的评估框架。该数据集涵盖了从简单算术到代数思维和几何推理的各种难度级别。这将有助于加强评估人工智能模型数学推理能力的基准,而不会受到训练数据的污染风险。

比赛任务

比赛的目标是创建能够解决 LaTeX 格式下的棘手数学问题的算法和模型。您的参与将有助于推动人工智能模型的数学推理能力,并推动前沿知识的发展。

评价指标

提交的内容将根据其预测标签与地面真相标签之间的准确性进行评估。换句话说,提交内容将根据准确匹配地面真相标签的预测标签的比例进行排名。在这个比赛中,每个地面真相标签都是一个介于0和999之间(包括0和999)的整数。

对于测试集中的每个id,您必须预测一个相应的整数答案。文件应包含一个标题,并具有以下格式:

id,answer
00aa,0
11bb,0
22cc,0
...

赛题赛程

  • 2024年6月20日 - 参赛截止日期。您必须在此日期之前接受比赛规则才能参加比赛。
  • 2024年6月20日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2024年6月27日 - 最终提交截止日期。

赛题数据集

每个问题的答案是一个非负整数,您应该报告模1000的余数。例如,如果您认为一个问题的答案是2034,您的预测应该是34。所有问题都是纯文本的,其中的数学符号使用LaTeX表示。请参阅AIMO Prize - Note on Language and Notation.pdf手册,了解所使用的符号约定。尽管一些问题可能涉及几何,但在任何问题中都不使用图表。

公共测试集包括确切的50个问题,私有测试集包括一个不同的50个问题的集合。我们还提供了一组10个问题作为训练数据使用。两个测试集中的问题都经过了平衡,考虑了难度和主题领域。

由于可用的问题数量有限,我们正在采取特殊预防措施来保护测试集免受探测的影响。在提交期间,测试集将仅包含50个公共集问题。一旦比赛结束,当我们重新运行提交时,测试集将仅包含50个私有集问题。**您应尽量确保您的提交能够在50个新的私有集问题上成功完成。**这可能意味着确保您的提交对意外输入具有鲁棒性,或管理运行时和内存使用。

  • train.csv - 包含10个问题作为训练数据使用。
  • test.csv - 包含50个问题。请注意,此处可见的问题仅为占位符。在评分期间,您的提交将可以访问完整的问题集。
  • sample_submission.csv - 正确格式的样本提交文件。有关提交格式的更多信息,请参阅评估页面。

数据集字段如下:

  • id - 每个问题的唯一标识符。
  • problem - 要解决的问题描述。
  • answer - 从0到999的整数。