背景介绍
比赛的数据使用的是官方的《中国综合社会调查CGSS)》文件中的调查结果中的数据,其共包含有139个维度的特征,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务)等特征。
数据信息
赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1代表幸福感最低,5代表幸福感最高)。
评价指标
最终的评价指标为均方误差MSE,即: S c o r e = 1 n ∑ 1 n ( y i − y ∗ ) 2 Score = \frac{1}{n} \sum_1 ^n (y_i - y ^*)^2 Score=n11∑n(yi−y∗)2
方法步骤
- 导入package
- 导入数据集
- 查看数据的基本信息
- 数据预处理
- 处理数据中连续出现的负数值
- 填充缺失值
- 特殊格式信息处理(年龄等)
- 数据增广
- 特征建模
- lightGBM、xgboost、RandomForestRegressor、GradientBoostingRegressor、ExtraTreesRegressor
- Kernel Ridge Regression、使用普通岭回归、使用ElasticNet 弹性网络、使用BayesianRidge 贝叶斯岭回归
- 模型融合
- 结果保存
参考资料:
https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning