集成学习案例一 (幸福感预测)

本文介绍了一项基于《中国综合社会调查CGSS》数据的幸福感预测竞赛。该竞赛利用139个维度的特征对个人幸福感进行预测,采用MSE作为评价指标,并详细介绍了数据预处理、特征建模及模型融合等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景介绍

比赛的数据使用的是官方的《中国综合社会调查CGSS)》文件中的调查结果中的数据,其共包含有139个维度的特征,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务)等特征。

数据信息

赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1代表幸福感最低,5代表幸福感最高)。

评价指标

最终的评价指标为均方误差MSE,即: S c o r e = 1 n ∑ 1 n ( y i − y ∗ ) 2 Score = \frac{1}{n} \sum_1 ^n (y_i - y ^*)^2 Score=n11n(yiy)2

方法步骤

  • 导入package
  • 导入数据集
  • 查看数据的基本信息
  • 数据预处理
    • 处理数据中连续出现的负数值
    • 填充缺失值
    • 特殊格式信息处理(年龄等)
  • 数据增广
  • 特征建模
    • lightGBM、xgboost、RandomForestRegressor、GradientBoostingRegressor、ExtraTreesRegressor
    • Kernel Ridge Regression、使用普通岭回归、使用ElasticNet 弹性网络、使用BayesianRidge 贝叶斯岭回归
  • 模型融合
  • 结果保存

参考资料:

https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值