使用这种强大的技术增强任何分类特征。
文章目录
1、简介
我们在这门课程中看到的大多数技术都是针对数值特征的。我们将在这节课中看到的技术,目标编码,则是针对分类特征的。它是一种将类别编码为数字的方法,就像独热编码或标签编码一样,不同之处在于它还使用目标来创建编码。这使得它成为我们所说的监督特征工程技术。
In [1]:
import pandas as pd
autos = pd.read_csv("../input/fe-course-data/autos.csv")
2、目标编码
目标编码是任何一种将特征的类别替换为从目标派生的数字的编码。
一个简单而有效的版本是应用第三课的组聚合,比如平均值。使用汽车数据集,这将计算每种汽车的平均价格:
In [2]:
autos["make_encoded"] = autos.groupby("make")["price"].transform("mean")
autos[["make", "price", "make_encoded"]].head(10)
Out[2]:
make | price | make_encoded | |
---|---|---|---|
0 | alfa-romero | 13495 | 15498.333333 |
1 | alfa-romero | 16500 | 15498.333333 |
2 | alfa-romero | 16500 | 15498.333333 |
3 | audi | 13950 | 17859.166667 |
4 | audi | 17450 | 17859.166667 |