Kaggle赛题:BirdCLEF 2024

  • 比赛名称:BirdCLEF 2024
  • 比赛类型:语音识别
  • 比赛任务:音频识别鸟类物种,关注尚未得到充分研究的物种。

https://www.kaggle.com/competitions/birdclef-2024

比赛背景

在鸟类学领域,鸟类是生物多样性变化的优秀指标,因为它们具有高度的移动性和多样化的栖息地需求。鸟类物种群落的变化以及鸟类数量的变化可以表明恢复项目的成功或失败。然而,频繁地在大范围内进行传统的基于观察者的鸟类生物多样性调查既昂贵又在逻辑上具有挑战性。相比之下,结合机器学习的新分析工具的被动声学监测(PAM)使保护者能够以更高的时间分辨率对更大的空间尺度进行抽样,并深入探讨恢复干预措施与生物多样性之间的关系。

面对快速的人为压力,包括栖息地改变和气候变化,我们需要利用最新的保护工具和技术来监测生物多样性。通过Kaggle竞赛,我们旨在对西高止山脉的鸟类物种进行声音景观的自动检测和分类。这个Kaggle竞赛的更广泛目标包括:

  1. 在声音景观数据中识别西高止山脉的天空岛屿的特有鸟类物种。
  2. 检测/分类具有有限训练数据的濒危鸟类物种(受保护关注的物种)。
  3. 检测/分类夜间鸟类物种,这些物种目前认识不足。

比赛任务

在这个比赛中,您将利用您的机器学习技能通过声音识别来识别印度鸟类中的研究不足的物种。具体而言,您将开发计算解决方案来处理连续的音频数据,并通过它们的鸣叫声识别物种。 最好的参赛作品将能够使用有限的训练数据训练可靠的分类器。如果成功,您将有助于推动印度西高止山脉(Western Ghats)的鸟类生物多样性保护工作,包括由IISER Tirupati的V.V. Robin实验室领导的工作。

评价指标

本次比赛的评估指标是一个版本的宏平均ROC-AUC,它跳过了没有真正阳性标签的类别。

提交格式

对于每个row_id,您应该预测特定鸟类出现的概率。每个鸟类都有一列,因此您需要为每个row_id提供182个预测。每一行涵盖五秒的音频窗口。

数据集介绍

在这个竞赛中,您的挑战是识别在西高止山脉的全球生物多样性热点中录制的鸟类叫声。这对于为保护目的监测鸟类种群的科学家来说是一个重要的任务。更准确的解决方案可能会实现更全面的监测。

train_audio/ 训练数据由个别鸟类叫声的短录音组成,这些录音由 xenocanto.org 的用户慷慨上传。这些文件已经降采样到32 kHz(如果适用),以匹配测试集音频,并转换为ogg格式。训练数据应该包含几乎所有相关文件;我们预计在 xenocanto.org 上寻找更多文件是没有益处的,并感谢您在限制对其服务器负担的合作。

test_soundscapes/ 当您提交笔记本时,test_soundscapes目录将被填充,其中包含大约1100个用于评分的录音。它们长度为4分钟,格式为ogg音频。文件名是随机的,但具有soundscape_xxxxxx.ogg的一般形式。您的提交笔记本应该大约需要五分钟来加载所有的测试声音景观。

unlabeled_soundscapes/ 与测试声音景观相同录制位置的未标记音频数据。

train_metadata.csv 为训练数据提供了各种元数据。最直接相关的字段是:

  • primary_label - 鸟类的代码。您可以通过将代码附加到https://ebird.org/species/来查看有关鸟类代码的详细信息,例如https://ebird.org/species/amecro是美洲乌鸦的链接。并非所有物种都有自己的页面;有些链接将失败。
  • latitude & longitude:录音地点的坐标。一些鸟类物种可能有当地的叫声“方言”,因此您可能希望在训练数据中寻找地理多样性。
  • author - 提供录音的用户。
  • filename:相关音频文件的名称。

sample_submission.csv 一个有效的示例提交。

  • row_id:预测的slug为 soundscape_[soundscape_id]_[end_time]
  • [bird_id]:有182个鸟ID列。您需要为每一行预测每种鸟的存在概率。

eBird_Taxonomy_v2021.csv - 不同物种之间关系的数据。

比赛时间轴

  • 2024年4月3日 - 开始日期。
  • 2024年6月3日 - 参赛截止日期。
  • 2024年6月3日 - 团队合并截止日期。
  • 2024年6月10日 - 最终提交截止日期。

优胜方案

面对快速的人为压力,包括栖息地改变和气候变化,我们需要利用最新的保护工具和技术来监测生物多样性。通过Kaggle竞赛,我们旨在对西高止山脉的鸟类物种进行声音景观的自动检测和分类。这个Kaggle竞赛的更广泛目标包括:

  1. 在声音景观数据中识别西高止山脉的天空岛屿的特有鸟类物种。
  2. 检测/分类具有有限训练数据的濒危鸟类物种(受保护关注的物种)。
  3. 检测/分类夜间鸟类物种,这些物种目前认识不足。

比赛任务

在这个比赛中,您将利用您的机器学习技能通过声音识别来识别印度鸟类中的研究不足的物种。具体而言,您将开发计算解决方案来处理连续的音频数据,并通过它们的鸣叫声识别物种。 最好的参赛作品将能够使用有限的训练数据训练可靠的分类器。如果成功,您将有助于推动印度西高止山脉(Western Ghats)的鸟类生物多样性保护工作,包括由IISER Tirupati的V.V. Robin实验室领导的工作。

评价指标

本次比赛的评估指标是一个版本的宏平均ROC-AUC,它跳过了没有真正阳性标签的类别。

提交格式

对于每个row_id,您应该预测特定鸟类出现的概率。每个鸟类都有一列,因此您需要为每个row_id提供182个预测。每一行涵盖五秒的音频窗口。

数据集介绍

在这个竞赛中,您的挑战是识别在西高止山脉的全球生物多样性热点中录制的鸟类叫声。这对于为保护目的监测鸟类种群的科学家来说是一个重要的任务。更准确的解决方案可能会实现更全面的监测。

train_audio/ 训练数据由个别鸟类叫声的短录音组成,这些录音由 xenocanto.org 的用户慷慨上传。这些文件已经降采样到32 kHz(如果适用),以匹配测试集音频,并转换为ogg格式。训练数据应该包含几乎所有相关文件;我们预计在 xenocanto.org 上寻找更多文件是没有益处的,并感谢您在限制对其服务器负担的合作。

test_soundscapes/ 当您提交笔记本时,test_soundscapes目录将被填充,其中包含大约1100个用于评分的录音。它们长度为4分钟,格式为ogg音频。文件名是随机的,但具有soundscape_xxxxxx.ogg的一般形式。您的提交笔记本应该大约需要五分钟来加载所有的测试声音景观。

unlabeled_soundscapes/ 与测试声音景观相同录制位置的未标记音频数据。

train_metadata.csv 为训练数据提供了各种元数据。最直接相关的字段是:

  • primary_label - 鸟类的代码。您可以通过将代码附加到https://ebird.org/species/来查看有关鸟类代码的详细信息,例如https://ebird.org/species/amecro是美洲乌鸦的链接。并非所有物种都有自己的页面;有些链接将失败。
  • latitude & longitude:录音地点的坐标。一些鸟类物种可能有当地的叫声“方言”,因此您可能希望在训练数据中寻找地理多样性。
  • author - 提供录音的用户。
  • filename:相关音频文件的名称。

sample_submission.csv 一个有效的示例提交。

  • row_id:预测的slug为 soundscape_[soundscape_id]_[end_time]
  • [bird_id]:有182个鸟ID列。您需要为每一行预测每种鸟的存在概率。

eBird_Taxonomy_v2021.csv - 不同物种之间关系的数据。

比赛时间轴

  • 2024年4月3日 - 开始日期。
  • 2024年6月3日 - 参赛截止日期。
  • 2024年6月3日 - 团队合并截止日期。
  • 2024年6月10日 - 最终提交截止日期。