建模杂谈系列203 建模过程2 数值化映射

本文探讨了数值化在建模过程中的重要性,包括提高计算效率和处理缺失值。字符型数据统一填充为'MISSING',数值型缺失值用中位数填充。通过生成的字典进行变换,得到完整无缺失的数值化数据集,为后续的衍生变量和建模步骤奠定基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明

上一次已经快速探查了数据,为数据做了数据字典以及基础的转换,并将数据分为了训练和测试。
现在就假定我们只有训练,然后开始进行更深入的建模步骤。

内容

1 为什么要数值化

一方面是因为后续存储和计算的便利性。假设数据的一部分需要通过矩阵计算,那么保持统一的格式,例如float32。

另一方面,在数值化的过程中,势必要去考虑缺失值的处理。

经过这个步骤,确保后续的操作的数据将全部是数值,并且没有缺失。

比较特殊的应该是id,理论上,这个变量将伴随整个建模过程,且不参与计算。

2 字符型的数值化

所有的字符型变量,默认填充缺失为’MISSING’

# 读取之前映射好的数据
train_df = from_pickle('train_df_003', data_path)
# 读取变量字典
data_dict_df = from_pickle('data_dict_df_002'<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值