说明
上一次已经快速探查了数据,为数据做了数据字典以及基础的转换,并将数据分为了训练和测试。
现在就假定我们只有训练,然后开始进行更深入的建模步骤。
内容
1 为什么要数值化
一方面是因为后续存储和计算的便利性。假设数据的一部分需要通过矩阵计算,那么保持统一的格式,例如float32。
另一方面,在数值化的过程中,势必要去考虑缺失值的处理。
经过这个步骤,确保后续的操作的数据将全部是数值,并且没有缺失。
比较特殊的应该是id,理论上,这个变量将伴随整个建模过程,且不参与计算。
2 字符型的数值化
所有的字符型变量,默认填充缺失为’MISSING’
# 读取之前映射好的数据
train_df = from_pickle('train_df_003', data_path)
# 读取变量字典
data_dict_df = from_pickle('data_dict_df_002'<