Kaggle赛题:Predict New Medicines with BELKA

  • 比赛名称:Leash Bio - Predict New Medicines with BELKA
  • 比赛类型:生命科学
  • 比赛任务:使用化学评估大编码库 (BELKA) 预测小分子-蛋白质相互作用

https://www.kaggle.com/competitions/leash-BELKA

比赛背景

小分子药物是与细胞蛋白质机器相互作用,并以某种方式影响该机器功能的化学物质。通常,药物旨在抑制单个蛋白质靶点的活性,这些靶点被认为参与了疾病过程。识别此类候选分子的经典方法是逐个地物理制备它们,然后将它们暴露给感兴趣的蛋白质靶点,并测试它们是否相互作用。这可能是一个相当费时费力的过程。

美国食品和药物管理局(FDA)在其整个历史上大约批准了2,000个新型分子实体。然而,药物样品中化学物质的数量被估计为10^60,这是一个太大而无法通过物理搜索的空间。在那个化学空间中可能存在有效的治疗人类疾病的方法,因此我们都希望能够找到更好的方法来发现这样的治疗方法。

为了评估小分子化学中的潜在搜索方法,比赛主办方Leash Biosciences使用DNA编码化学库(DEL)技术对约1.33亿种小分子进行了物理测试,以了解它们与三种蛋白质靶点之一相互作用的能力。这个数据集,即大型编码化学评估库(BELKA),为开发可能推动药物发现的预测模型提供了绝佳的机会。

这样规模的数据集在大型制药公司中很少见且受限制。目前公开的最佳精选数据集可能是bindingdb,该数据集包含280万个结合测量,远远小于BELKA。

这个竞赛旨在通过利用ML技术来彻底改变小分子结合预测。ML方法的最新进展表明,通过使用经过良好训练的计算模型进行推理,而不是进行实验室实验,可能可以搜索化学空间。其他领域的类似进展表明,利用ML在广阔空间中进行搜索可能是一种通用方法,适用于许多领域。我们希望通过提供BELKA,我们将使计算药物发现的一些方面民主化,并帮助社区发现新的拯救生命的药物。

比赛任务

在这个竞赛中,您将开发机器学习(ML)模型来预测小分子与特定蛋白质靶点的结合亲和性 - 这是制药行业药物开发的关键步骤,为更准确的药物发现铺平道路。您将帮助预测哪些类似药物的小分子(化学物质)将与三种可能的蛋白质靶点结合。

评价指标

本次比赛的评估指标是预测概率和观察目标之间的平均精度(micro)均值。

提交格式

对于测试集中的每个ID,您必须预测二进制目标“binds”的概率。文件应包含一个标题,并具有以下格式:

id,binds
295246830,0.5
295246831,0.5
295246832,0.5
...

数据集介绍

在这个竞赛中,数据集中的示例由是否给定的小分子与三个蛋白质靶点之一结合的二元分类表示。数据是使用DNA编码化学库(DEL)技术收集的。我们用SMILES(Simplified Molecular-Input Line-Entry System)表示化学结构,用二进制结合分类标签表示,每个蛋白质靶点一个标签。

[train/test].[csv/parquet] - 训练或测试数据,以csv和parquet格式提供。

  • id - 一个唯一的示例ID,用于识别分子结合靶点对。
  • buildingblock1_smiles - 第一个构建块的结构,以SMILES格式表示
  • buildingblock2_smiles - 第二个构建块的结构,以SMILES格式表示
  • buildingblock3_smiles - 第三个构建块的结构,以SMILES格式表示
  • molecule_smiles - 完整组装分子的结构,以SMILES格式表示。这包括三个构建块和三嗪核心。请注意,我们使用[Dy]作为DNA连接物的替代符号。
  • protein_name - 蛋白质靶点名称
  • binds - 目标列。一个二元类标签,表示分子是否与蛋白质结合。测试集中不可用。

sample_submission.csv - 一个正确格式的样本提交文件

比赛时间轴

  • 2024年4月4日 - 开始日期。
  • 2024年7月1日 - 参赛截止日期。
  • 2024年7月1日 - 团队合并截止日期。
  • 2024年7月8日 - 最终提交截止日期。