Kaggle赛题解析:ARC Prize 2024

  • 赛题标题:ARC Prize 2024
  • 赛题类型:强化学习
  • 赛题任务:创建能够解决前所未见的推理任务的人工智能

ARC Prize 2024 | Kaggle

赛题背景

尽管对大型数据集进行了广泛的训练,但当前的人工智能系统无法推广到训练数据之外的新问题。LLM已将人工智能带入主流,以应对大量已知任务。然而,通用人工智能(AGI)的进展已经停滞。通用人工智能的改进可以使人工智能系统能够与人类一起思考和发明。

通用人工智能抽象与推理语料库 (ARC-AGI) 基准衡量人工智能系统有效学习新技能的能力。人类在 ARC 中轻松得分 85%,而最好的人工智能系统只能得分 34%。 ARC 奖竞赛鼓励研究人员探索LLM以外的想法,这些想法严重依赖于大型数据集并努力解决新问题。

赛题任务

在本次比赛中,您将开发人工智能系统来有效地学习新技能并解决开放式问题,而不是仅仅依赖于经过大量数据集训练的人工智能系统。排名靠前的提交内容将显示人类推理基准的改进。

提交格式

本次比赛的提交文件必须是名为submission.json。 对于评估集中的每个任务输出,您应该准确地进行 2 个预测(attempt_1、attempt_2)。预测的结构如下所示。大多数任务仅具有单个输出(列表中包含的单个字典),尽管某些任务具有必须预测的多个输出。

这些应该包含两个包含在列表中的预测字典,如下例所示。当一个任务有多个需要预测的测试输出时(例如下面的任务 12997ef3),它们的顺序必须与相应的测试输入相同。

{"00576224": [{"attempt_1": [[0, 0], [0, 0]], "attempt_2": [[0, 0], [0, 0]]}],
 "009d5c81": [{"attempt_1": [[0, 0], [0, 0]], "attempt_2": [[0, 0], [0, 0]]}],
 "12997ef3": [{"attempt_1": [[0, 0], [0, 0]], "attempt_2": [[0, 0], [0, 0]]},
              {"attempt_1": [[0, 0], [0, 0]], "attempt_2": [[0, 0], [0, 0]]}],
 ...
}

评价指标

本次比赛根据正确预测的百分比来评估提交的作品。对于每个任务,您应该为任务中包含的每个测试输入网格准确预测 2 个输出。 (任务可以有多个需要预测输出的测试输入。)每个任务测试输出都有一个基本事实。对于给定的任务输出,两个预测输出中的任何一个都与真实情况完全匹配,该任务测试输出的得分为 1,否则为 0。

赛题时间轴

  • 2024 年 6 月 11 日 - 开始日期。
  • 2024 年 11 月 3 日 - 合并截止。
  • 2024 年 11 月 10 日 - 提交截止。

赛题数据集

这个比赛的目标是创建一个能够解决抽象推理任务的算法。关键的是,这些是新颖的任务:算法以前从未见过的任务。因此,仅仅记住一组推理模板是不够的。

当查看一个任务时,一个"考生"可以访问演示对(训练对)的输入和输出,以及测试对的输入。目标是使用每个测试输入的2次试验来构建相应的输出网格。"构建输出网格"涉及选择输出网格的高度和宽度,然后在网格的每个单元格中填入一个符号(0到9之间的整数,这些数字被可视化为颜色)。只有完全正确的解决方案(所有单元格与预期答案匹配)才能被认为是正确的。

  • arc-agi_training-challenges.json:包含输入/输出对,这些对演示了要应用于每个任务的"测试"输入的推理模式。这个文件和相应的解决方案文件可以用作你的模型的训练数据。
  • arc-agi_training-solutions.json:包含相应的任务"测试"输出(真实情况)。
  • arc-agi_evaluation-challenges.json:包含输入/输出对,这些对演示了要应用于每个任务的"测试"输入的推理模式。这个文件和相应的解决方案文件可以用作你的模型的验证数据。
  • arc-agi_evaluation-solutions.json:包含相应的任务"测试"输出(真实情况)。
  • arc-agi_test-challenges.json:这个文件包含用于排行榜评估的任务,包含每个任务的"训练"输入/输出对以及"测试"输入。你的任务是预测"测试"输出。注意: 这个页面上显示的文件是一个使用arc-agi_evaluation-challenges.json中任务的占位符。当你提交你的笔记本重新运行时,这个文件会被实际的测试挑战替换。
  • sample_submission.json:一个正确格式的提交文件
1 个赞

佬,什么时候新的Coggle 30 Days 系列?

你希望未来是什么系列的?

hhh 佬 其实我也还不急,只是随便问问。就是我是最近在看您的动手学rag系列觉得很NICE,然后就有兴趣下次跟着学一期30天系列。

学rag是研0导想让我学一下,然后我就在b站上搜索就学了。然后我导还让我部署一下llava然后看到时候可不可以微调一下。我觉得假如是那种热门开源大模型,应该会很多人想学,然后也会去搜:thinking: