Kaggle赛题:Automated Essay Scoring 2.0

  • 比赛名称:Learning Agency Lab - Automated Essay Scoring 2.0
  • 比赛类型:自然语言处理
  • 比赛任务:改进论文评分算法,以提高学生的学习成果

https://www.kaggle.com/competitions/learning-agency-lab-automated-essay-scoring-2

比赛背景

论文写作是评估学生学习和表现的重要方法。但对教育者来说,手工评分非常耗时。自动写作评估(AWE)系统可以评分文章,作为教育者其他努力的补充。AWE还允许学生及时获得关于他们写作的定期反馈。 然而,由于成本较高,许多该领域的先进技术并不普及到学生和教育者手中。有必要开发开源解决方案来评估学生的写作,以便将这些重要的教育工具普及到每个社区。

先前开发的开源AWE努力受到了小型数据集的限制,这些数据集在国家范围内缺乏多样性,并且侧重于常见的文章格式。第一次自动评分竞赛评分学生的简答回答,但这种写作任务在课堂上并不经常使用。为了改进先前的努力,需要一个更广泛的数据集,其中包含高质量、现实的课堂写作样本。此外,为了扩大影响力,数据集应包含不同经济和地理背景的样本,以减少算法偏见的可能性。

比赛主办方范德堡大学是位于田纳西州纳什维尔的一所私立研究型大学。对于此次比赛,范德堡大学与The Learning Agency Lab合作,后者是一家位于亚利桑那州的独立非营利组织,致力于为社会福祉开发基于学习科学的工具和项目。

比赛任务

在过去的十二年里,自动化评分技术已经取得了显著的进步,特别是在处理学生写作文章评分方面。最初的自动化评分比赛标志着这一领域的开端,但在随后的岁月里,通过更新数据集、引入新的想法和技术,我们已经取得了长足的进步。

这项比赛的目标是训练一个模型来评分学生的文章。我们希望通过您的努力,减少手工评分所需的高昂费用和时间。 可靠的自动化评分技术可以使文章评分成为可能,这是目前由于评分难度而普遍避免的测试中的重要组成部分。

评价指标

提交的论文将根据二次加权kappa进行评分,该指标衡量了两个结果之间的一致性。这个度量通常从0(随机一致性)到1(完全一致性)变化。如果一致性低于预期的随机一致性,那么该度量可能会低于0。二次加权kappa的计算如下。首先,构建一个N x N的直方图矩阵O,使得$O_{i,j}$对应于收到预测值$j$的论文ID $i$(实际值)的数量。基于实际值和预测值之间的差异,计算一个$N×N$的权重矩阵$w$:

w_{i,j} = \frac{{(i-j)^2}}{{(N-1)^2}}

然后,计算一个$N×N$的预期结果直方图矩阵$E$,假设值之间没有相关性。这是通过实际直方图结果向量和预测直方图结果向量的外积计算得到的,使得$E$和$O$具有相同的和。有了这三个矩阵,就可以计算二次加权kappa:

\kappa = 1 - \frac{{\sum_{i,j} w_{i,j} O_{i,j}}}{{\sum_{i,j} w_{i,j} E_{i,j}}}.

提交格式

对于测试集中的每个essay_id,您必须预测相应的分数(在数据页面上描述)。文件应包含一个标题,并具有以下格式:

essay_id,score
000d118,3
000fe60,3
001ab80,4
...

数据集介绍

竞赛数据集包含约24000篇学生撰写的议论性文章。每篇文章的得分在1到6的范围内(链接到整体评分标准)。您的目标是根据文本预测文章的得分。

文件和字段信息:

train.csv - 作为训练数据使用的文章和得分。

  • essay_id - 文章的唯一ID
  • full_text - 完整的文章内容
  • score - 文章的整体得分,范围为1到6

test.csv - 作为测试数据使用的文章。包含与train.csv相同的字段,除了排除了score。

sample_submission.csv - 符合正确格式的提交文件。

  • essay_id - 文章的唯一ID
  • score - 文章的预测整体得分,范围为1到6

比赛时间轴

  • 2024年4月2日 - 开始日期。
  • 2024年6月25日 - 参赛截止日期。
  • 2024年6月25日 - 团队合并截止日期。
  • 2024年7月2日 - 最终提交截止日期。