EX5: 机器学习作业

任务介绍

本次作业以kaggle数据科学竞赛的形式呈现。竞赛中,你将使用一些特征对公民的贷款审批状况进行二分类。具体细节请见此处open in new window

注意到,该比赛是私有比赛,需通过本链接open in new window来参赛。

步骤

Step 1. 分析与预处理数据

  • 对预测目标 Y 进行分析

    • 这是一个分类任务还是回归任务,这决定了你需要使用何种模型
  • 对特征集 X 进行分析

    • 特征的含义是什么?
    • 是否包含缺省值?
    • 特征对预测有价值吗?
    • 特征需要数值化吗?

Step 2. 训练模型

  • 测试各种模型
  • 使用交叉验证
  • 调参 (看文档)
  • 模型集成

Step 3. 预测与提交

  • 请于5月17日晚上12点前完成提交;
  • 你需要对整个测试集的样本进行预测,但直到5月17日晚上12点前,你只能看到你的模型在测试集中40%的样本上的预测结果,这部分数据称为public测试集。你的模型在剩下的60%的样本(private测试集)上的预测结果将于5月18日公布。这样做的目的是为了防止你的模型过拟合public测试集,从而提高模型的泛化能力。
  • 请将实验思路、流程、代码等整理到一个notebook中,直接在kaggle平台上提交。注意在文件的第一个cell中注明你的姓名和学号。

温馨提示

  1. 请务必阅读kaggle上对本任务的背景介绍、数据介绍、比赛规则介绍等全部信息;
  2. 不要Submit Prediction中直接进行File Upload,即不要只提交一个submission.csv文件。你需要提交一个后缀为.ipynb的notebook文件;
  3. 你的notebook需要生成一个形如sample_submission.csv的文件submission.csv,将其放置在/kaggle/working/目录下,这样kaggle平台才能正确读取你的预测结果。你可以通过pd.to_csv()方法来生成该文件;