建模杂谈系列203 建模过程2 数值化映射

yukai08008

于 2023-02-02 21:08:52 发布

阅读量229

点赞数

CC 4.0 BY-SA版权

分类专栏：建模文章标签： python 人工智能

本文探讨了数值化在建模过程中的重要性，包括提高计算效率和处理缺失值。字符型数据统一填充为'MISSING'，数值型缺失值用中位数填充。通过生成的字典进行变换，得到完整无缺失的数值化数据集，为后续的衍生变量和建模步骤奠定基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

说明

上一次已经快速探查了数据，为数据做了数据字典以及基础的转换，并将数据分为了训练和测试。
现在就假定我们只有训练，然后开始进行更深入的建模步骤。

一方面是因为后续存储和计算的便利性。假设数据的一部分需要通过矩阵计算，那么保持统一的格式，例如float32。

另一方面，在数值化的过程中，势必要去考虑缺失值的处理。

经过这个步骤，确保后续的操作的数据将全部是数值，并且没有缺失。

比较特殊的应该是id，理论上，这个变量将伴随整个建模过程，且不参与计算。

所有的字符型变量，默认填充缺失为’MISSING’

# 读取之前映射好的数据
train_df = from_pickle('train_df_003', data_path)
# 读取变量字典
data_dict_df = from_pickle('data_dict_df_002'<

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注

专栏目录

09-23

1155

07-30

9277

参与评论您还未登录，请先登录后发表或查看评论