Kaggle赛题解析:NCAA篮球预测

  • 赛题名称:March Machine Learning Mania 2024
  • 赛题任务:预测 2024 年大学篮球锦标赛
  • 赛题类型:数据挖掘
  • 赛题链接:point_down:

March Machine Learning Mania 2024 | Kaggle

赛题背景

March Machine Learning Mania比赛是一项激动人心的赛事,参与者利用历史的NCAA篮球数据和机器学习技术来预测一级男子和女子篮球锦标赛的结果。参与者有机会提交1到100,000个不同的预测方案,展示他们的选秀技巧,争夺积分、奖牌、奖品以及篮球荣耀。

作为比赛的第十届年度赛事,March Machine Learning Mania继续吸引着参与者和球迷的关注,提供了体育热情和数据驱动分析的独特结合。随着赌注的增加和竞争的激烈,参与者将踏上一场激动人心的旅程,预测出局、识别概率,并最终在大学篮球选秀世界中取得胜利。

赛题任务

March Machine Learning Mania比赛的任务是利用历史的NCAA篮球比赛数据,预测一级男子和女子篮球锦标赛的结果。参与者需要根据提供的数据和规则,制定出一到多个选秀方案(bracket predictions),其中每个选秀方案都包括对整个锦标赛的赛果预测。

比赛要求参与者提交一个或多个选秀方案,每个选秀方案都是对整个锦标赛的预测,包括每一轮比赛的胜者和输者。选秀方案的提交数量范围从1到100,000,使参与者能够根据自己的策略和方法,灵活地调整和优化他们的预测策略。

评价指标

比赛的评价指标是平均选秀分数(Average Bracket Score)。参与者需要为一级男子和女子篮球锦标赛提交一个选秀方案组合(portfolio of bracket predictions)。每个选秀方案可以包含至少1个,最多100,000个选秀方案。每个选秀方案将根据每个锦标赛轮次的正确预测数量获得积分:在第1、2、3、4、5、6轮每轮获得1、2、4、8、16、32分。

每个锦标赛的得分是所有预测选秀方案的平均得分。最终得分是两个锦标赛得分的平均值。每个选秀方案的结构由其插槽(slots)定义。在第1到第4轮中,每个插槽由一个形式为 ‘R{round}{region}{chalk_seed}’ 的四字符字符串标识。

提交结果

提交文件应包含标题行,并具有以下格式:

RowId,Tournament,Bracket,Slot,Team
1,M,1,R1W1,W01
2,M,1,R1W8,W08
3,M,1,R1W5,W05
...

RowId列是指标要求的虚拟索引;它应该是行的简单编号。Tournament列指示是男子(M)锦标赛还是女子(W)锦标赛。Bracket列对每个锦标赛中的选秀方案进行编号,从1开始;您应该为每个锦标赛使用唯一的编号。Team列应包含您预测在相应插槽中获胜的队伍。

赛题赛程

  • 2024年3月21日,UTC时间下午4点:最终提交截止日期
  • 2024年3月21日至4月8日:Kaggle将在整个锦标赛期间刷新排行榜。
  • 2024年4月10日:预计竞赛结果最终确定。

赛题数据集

这个数据集包含了美国大学体育协会(NCAA)男子和女子篮球比赛的历史数据。数据集分为几个部分,每个部分包含不同类型的信息。

  1. 队伍信息(MTeams.csv 和 WTeams.csv)

    • 包含男子(MTeams)和女子(WTeams)篮球队伍的信息。
    • 每个学校都有一个独特的四位数ID,男子队伍ID以1开头,女子队伍ID以3开头。
    • 提供了队伍名称、首次成为一级联盟(Division-I)的赛季(FirstD1Season)以及最后一次作为一级联盟的赛季(LastD1Season)。
  2. 赛季信息(MSeasons.csv 和 WSeasons.csv)

    • 列出了包含在历史数据中的不同赛季。
    • 提供了赛季年份、DayZero(赛季开始的日期)、以及四个赛区(Region W, X, Y, Z)的标识。
  3. 比赛种子信息(MNCAATourneySeeds.csv 和 WNCAATourneySeeds.csv)

    • 列出了每个NCAA锦标赛中所有队伍的种子排名。
    • 提供了赛季、种子(包括赛区标识和种子号)以及队伍ID。
  4. 常规赛结果(MRegularSeasonCompactResults.csv 和 WRegularSeasonCompactResults.csv)

    • 提供了从1985年男子赛季和1998年女子赛季开始的常规赛比赛结果。
    • 包括赛季、比赛日期(DayNum)、获胜队伍ID(WTeamID)、比分、失利队伍ID(LTeamID)等信息。
  5. 锦标赛结果(MNCAATourneyCompactResults.csv 和 WNCAATourneyCompactResults.csv)

    • 提供了NCAA锦标赛的比赛结果,包括季后赛和正赛。
    • 数据格式与常规赛结果相似,但所有男子比赛都被视为中立场地(WLoc总是N)。
  6. 队伍数据(Team Box Scores)

    • 提供了自2002-03赛季(男子)或2009-10赛季(女子)以来的常规赛、锦标赛和NCAA锦标赛的详细队伍统计数据。
  7. 地理信息(Cities.csv 和 MGameCities.csv/WGameCities.csv)

    • 提供了自2009-10赛季以来所有常规赛、锦标赛和NCAA锦标赛比赛的城市位置信息。
  8. 公共排名(MMasseyOrdinals.csv)

    • 提供了自2002-2003赛季以来男子队伍在不同排名系统中的周排名。
  9. 补充信息(Supplements)

    • 包括教练信息(MTeamCoaches.csv)、会议隶属(Conferences.csv 和 MTeamConferences.csv/WTeamConferences.csv)、替代队伍名称拼写(MTeamSpellings.csv 和 WTeamSpellings.csv)、NIT和其他季后赛比赛结果(MSecondaryTourneyTeams.csv 和 MSecondaryTourneyCompactResults.csv)等。
  10. 锦标赛结构(MNCAATourneySlots 和 WNCAATourneySlots)

    • 提供了锦标赛中队伍如何根据种子排名配对的信息。
  11. 锦标赛种子轮次插槽(MNCAATourneySeedRoundSlots.csv)

    • 帮助表示男子锦标赛的轮次结构,包括种子、轮次、比赛插槽以及可能的比赛日期。