6、目标编码(Target Encoding)

本文介绍了目标编码,一种针对分类特征的编码方法,它结合了目标信息。讨论了平滑处理未知类别和稀有类别的方法,并通过MovieLens1M数据集展示了其在高基数特征和领域驱动特征中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用这种强大的技术增强任何分类特征。

1、简介

我们在这门课程中看到的大多数技术都是针对数值特征的。我们将在这节课中看到的技术,目标编码,则是针对分类特征的。它是一种将类别编码为数字的方法,就像独热编码或标签编码一样,不同之处在于它还使用目标来创建编码。这使得它成为我们所说的监督特征工程技术。

In [1]:

import pandas as pd

autos = pd.read_csv("../input/fe-course-data/autos.csv")

2、目标编码

目标编码是任何一种将特征的类别替换为从目标派生的数字的编码。

一个简单而有效的版本是应用第三课的组聚合,比如平均值。使用汽车数据集,这将计算每种汽车的平均价格:

In [2]:

autos["make_encoded"] = autos.groupby("make")["price"].transform("mean")

autos[["make", "price", "make_encoded"]].head(10)

Out[2]:

make price make_encoded
0 alfa-romero 13495 15498.333333
1 alfa-romero 16500 15498.333333
2 alfa-romero 16500 15498.333333
3 audi 13950 17859.166667
4 audi 17450 17859.166667
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI算法蒋同学

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值