Kaggle赛题解析:HMS大脑活动模式分类

  • 赛题名称:HMS - Harmful Brain Activity Classification
  • 赛题类型:EEG信号分类、时序信号分类
  • 赛题任务:对病人的癫痫发作和其他有害大脑活动模式进行分类

HMS - Harmful Brain Activity Classification | Kaggle

赛题背景

通过开发一个模型,对从危重病房患者记录的脑电图(EEG)信号进行检测和分类,从而实现对癫痫发作和其他有害脑活动的准确识别。参赛者需要利用机器学习和深度学习等技术,针对医院患者的EEG数据进行训练,以提高脑电图模式分类的准确性。

过有效地识别脑电图中的异常模式,可以更快速、准确地进行神经重症监护、癫痫治疗以及药物研发。这一领域的进展可能使医生和脑科研究人员能够更早地检测到癫痫发作或其他脑损伤,为患者提供更快速、更准确的治疗,对神经科学和医学研究有着潜在的革命性影响。通过这个比赛,参与者有机会推动EEG信号处理领域的创新,为神经重症护理、癫痫治疗以及药物研发等领域的发展贡献力量。

赛题任务

比赛的目标是利用机器学习和深度学习技术,自动分析危重病患者记录的脑电图(EEG)信号。其主要任务是检测和分类EEG数据中的特定模式,包括癫痫发作(SZ)、广泛周期性放电(GPD)、局限性周期性放电(LPD)、局限性节律性三相电流活动(LRDA)、广泛节律性三相电流活动(GRDA)以及“其他”。

赛题时间轴

  • 2024年1月8日 - 比赛开始日期。
  • 2024年4月1日 - 报名截止日期。在此日期之前,你必须接受比赛规则才能参加比赛。
  • 2024年4月1日 - 团队合并截止日期。这是参与者加入或合并团队的最后期限。
  • 2024年4月8日 - 最终提交截止日期。

评价方法

提交的模型将根据预测概率与观察目标之间的Kullback-Leibler散度进行评估。Kullback-Leibler散度是一种衡量两个概率分布之间差异的度量。

对于测试集中的每个eeg_id,您需要为每个投票列预测一个概率。提交文件应包含标题,并采用以下格式:

eeg_id,seizure_vote,lpd_vote,gpd_vote,lrda_vote,grda_vote,other_vote
0,0.166,0.166,0.166,0.166,0.166,0.166
1,0.166,0.166,0.166,0.166,0.166,0.166
etc.

赛题数据

这是一个代码竞赛。测试集只提供了少量示例供下载。当评分您的提交时,测试文件夹将被替换为包含完整测试集的版本。

  • train.csv:训练集的元数据。专家标注员审查了50秒长的EEG样本以及匹配的涵盖相同时间窗口的10分钟窗口内的谱图,并标记了中央10秒。许多这些样本是重叠的,并已合并。train.csv提供了元数据,允许您提取标记人员注释的原始子集。

    • eeg_id - 整个EEG记录的唯一标识符。
    • eeg_sub_id - 适用于此行标签的特定50秒长子样本的ID。
    • eeg_label_offset_seconds - 合并的EEG开始和此子样本之间的时间。
    • spectrogram_id - 整个EEG记录的唯一标识符。
    • spectrogram_sub_id - 适用于此行标签的特定10分钟子样本的ID。
    • spectogram_label_offset_seconds - 合并的谱图开始和此子样本之间的时间。
    • label_id - 此标签集的ID。
    • patient_id - 捐赠数据的患者的ID。
    • expert_consensus - 共识标注者标签。仅为方便提供。
    • [seizure/lpd/gpd/lrda/grda/other]_vote - 给定脑活动类别的标注者投票计数。活动类别的全名如下:lpd:局限性周期性放电,gpd:广泛周期性放电,lrd:局限性节律性三相电流活动,grda:广泛节律性三相电流活动。这些模式的详细解释在此处提供。
  • test.csv:测试集的元数据。由于测试集中没有重叠的样本,因此训练元数据中的许多列不适用。

    • eeg_id
    • spectrogram_id
    • patient_id
  • sample_submission.csv

    • eeg_id
    • [seizure/lpd/gpd/lrda/grda/other]_vote - 目标列。您的预测必须是概率。请注意,测试样本的标注者数量在3到20之间。
  • train_eegs/:一个或多个重叠样本的EEG数据。使用train.csv中的元数据选择特定的标注子集。列名是EEG导联的各个电极位置的名称,只有一个例外。EKG列用于记录来自心脏的心电图信号。所有EEG数据(包括训练和测试)都以每秒200个样本的频率收集。

  • test_eegs/ :确切的50秒EEG数据。

  • train_spectrograms/:组装的EEG数据的谱图。使用train.csv中的元数据选择特定的标注子集。列名指示赫兹的频率和EEG电极的记录区域。后者简称为LL = 左侧横向; RL = 右侧横向; LP = 左侧经矢状; RP = 右侧经矢状。

  • test_spectrograms/ :使用确切的10分钟EEG数据组装的谱图。

  • example_figures/ :概览选项卡中使用的示例案例图像的较大版本。

现在的高分思路(集成多个模型):

排行榜得分的讨论:

数据样例(EEG):

数据样例(spectrograms):