Kaggle赛题解析:LEAP 模拟大气物理过程

  • 赛题名称:LEAP - Atmospheric Physics using AI (ClimSim)
  • 赛题类型:数据挖掘
  • 赛题任务:模拟高分辨率的大气过程

LEAP - Atmospheric Physics using AI (ClimSim) | Kaggle

赛题背景

比赛的目标是开发机器学习模型来模拟E3SM-MMF(美国能源部支持的多尺度气候模型)中的子网格大气过程,如风暴、云、湍流、降水和辐射。传统的气候模型依赖参数化来近似比其网格单元尺寸更小尺度上发生的物理过程的影响。这些近似不完美,其中的不确定性是预期变暖、降水模式变化以及极端事件频率和严重程度的主要不确定性来源之一。相比之下,多尺度建模框架(MMF)方法更明确地表示这些子网格过程,但代价过高,无法用于操作性气候预测。

ML 模拟器的成本远低于 MMF 模型,因此在这方面的进展可以帮助科学家实现未来高分辨率和物理可信的长期气候预测广泛可用,从而更清晰地了解与气候变化相关的危险,并为决策者提供减缓这些危险所需的知识。

这场比赛是即将举办的 2024 年 ICML 机器学习地球系统建模(ML4ESM)研讨会的一部分,基于 ClimSim 论文和数据集,该论文在 2023 年 NeurIPS 赢得了优秀数据集和基准论文奖。获奖作品将在即将举行的 ML4ESM ICML 研讨会上进行突出展示,而参加这次 Kaggle 竞赛的参与者也被鼓励提交研讨会论文。

赛题任务

在本次比赛中,您将开发机器学习模型,在可操作的气候模型中准确模拟次网格尺度的大气物理现象,这是改进气候预测和减少未来气候趋势不确定性的重要一步。

评价指标

评估将使用自定义的加权R平方指标,但是在一个加权解决方案上。在提交预测之前,请将您的预测数据逐元素与sample_submission.csv中的数据相乘,该文件既充当“样本提交”,又充当“权重文件”。这将通过压力和面积对所有目标变量进行加权,并将它们“转换”为公共单位(瓦特每平方米)。

赛题时间轴

  • 2024年4月18日 - 开始日期。
  • 2024年6月24日 - 参赛截止日期。您必须在此日期之前接受比赛规则才能参加竞赛。
  • 2024年6月24日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2024年7月1日 - 最终提交截止日期。

赛题数据集

竞赛的数据集(包括训练和测试集)是由E3SM-MMF气候模型生成的。E3SM-MMF的多尺度特性使其能够明确解析小尺度过程(如云和风暴)对大尺度气候模式的影响。然而,这种多尺度框架的计算成本很高,限制了其在实验和集合气候预测中的使用。目标是训练一个模型,以较低的成本模拟这些小尺度过程的效应,而无需显式解析它们。

训练集的每一行对应于E3SM-MMF中某个位置和时间步长的云解析模型(CRM)的输入和输出。共有556列,对应于25个输入变量和14个目标变量。一些变量(如空气温度)涵盖整个大气柱并具有60个垂直层,而其他变量(如降水)是标量。对于垂直分辨率的变量,附加一个在[0,59]范围内的数字后面加上"_"以表示垂直层。较低的数字表示大气中的更高位置。您的目标是创建一个模型,预测与给定输入变量相关联的目标变量。

  • train.csv - 训练集
  • test.csv - 测试集
  • sample_submission.csv - 预测样例