Kaggle赛题:Home Credit 风控预测

  • 赛题名称:Home Credit - Credit Risk Model Stability
  • 赛题任务:预测客户是否可能拖欠贷款
  • 赛题类型:数据挖掘
  • 赛题链接:point_down:

Home Credit - Credit Risk Model Stability | Kaggle

赛题背景

1997年成立的Home Credit是一家国际性的消费金融服务提供商,专注于为几乎没有信用记录的人提供负责任的贷款服务。传统的信用评估方法对于那些几乎没有信用记录的人可能不够适用。缺乏信用记录可能意味着年龄较小或更倾向于使用现金支付,这使得他们在传统数据方面缺乏足够的信息。缺乏传统数据的情况下,很可能会导致这些人被拒绝贷款申请。因此,数据科学有望帮助更好地预测借款人的偿还能力,从而使那些最需要贷款支持的人群能够更容易地获得贷款。

现实世界中客户的行为不断变化,因此每个评分卡都必须定期更新,这需要时间。评分卡在未来的稳定性至关重要,因为性能突然下降意味着贷款平均会发放给更差的客户。然而,贷款提供商无法在贷款到期日可观察到之前就发现潜在的问题。鉴于重新开发、验证和实施评分卡所需的时间,稳定性是非常可取的。模型稳定性与性能之间存在一种权衡关系,在部署之前必须达到平衡。

Home Credit通过与Kaggle等合作伙伴的比赛,旨在吸引数据科学家和机器学习专家的参与,以开发更准确、更稳定的评分卡模型,从而提高贷款申请的接受率,并改善那些因缺乏信用记录而被拒绝贷款的人群的生活。

赛题任务

比赛的任务是预测哪些客户更有可能违约贷款。评估将偏向那些随着时间稳定的解决方案。

参与者的参与可能会为消费金融服务提供商提供一种更可靠、更持久的方式来评估潜在客户的违约风险。

评价指标

评价指标是基于 Gini 稳定性度量的。对于每个周数(WEEK_NUM),预测结果会计算一个 Gini 分数。

\text { gini }=2 \times A \cup C-1

其中,A 表示实际值的累积分布函数,C 表示模型预测值的累积分布函数。

接下来,通过对每周的 Gini 分数进行线性回归拟合,得到一个形如 a \cdot x + b 的线性回归模型。从回归模型中提取出 falling_rate,计算方式为 $\min (0, a)$。这一指标用于惩罚预测能力下降的模型。

最终的评价指标是:

\text { stability metric }=\text{mean}(\text { gini })+88.0 \times \min (0, a)-0.5 \times \text{std}(\text { residuals })

换句话说,评价指标由预测结果的 Gini 均值、falling_rate 的最小值乘以 88.0、以及残差的标准差组成。

提交结果

对于测试集中的每个案例(case_id),您需要预测目标分数的概率。文件应包含一个标题,并具有以下格式:

case_id,score
57543,0.1
57544,0.9
57545,0.5
etc.