Python sklearn特征提取实战：字典、词频与TF-IDF

PDF文件

下载需积分: 10 | 929KB | 更新于2024-09-08 | 77 浏览量 | 举报收藏

立即下载

在IT领域，特征提取是数据分析和机器学习中的关键步骤，特别是在文本和图像处理中。本篇文章主要介绍了如何使用sklearn库来实现几种常见的特征提取方法。首先，我们讨论的是字典加载特征，即使用Python字典存储特征，这种做法便于理解和解释。然而，sklearn要求输入特征为numpy或scipy数组。`DictVectorizer`类在此时发挥作用，它可以将字典格式的特征转换成数值数组，并自动处理分类特征，通过独热编码(one-hot)方式表示类别信息。例如，以下代码展示了如何使用`DictVectorizer`处理包含城市和温度的数据： ```python measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'SanFrancisco', 'temperature': 18.}] vec = DictVectorizer() transformed_data = vec.fit_transform(measurements) print(transformed_data.toarray()) print(vec.get_feature_names()) ``` 接着，文本特征提取主要围绕词频向量（CountVectorizer）展开。这是一种基础的方法，它将文本转换为小写，然后按单词或短语计数。在这个过程中，可以使用`stop_words`参数去除无意义的常用词，如介词、冠词等。在处理中文文本时，可以先利用jieba库进行分词，确保准确提取关键词。另外，文本特征还可以通过TF-IDF算法进一步增强，即TfidfVectorizer/TfidfTransformer。TF-IDF（Term Frequency-Inverse Document Frequency）考虑了词频在文档中的相对重要性，同时降低了常见词汇对模型的影响。这种方法在处理大规模文本数据时尤其有效。针对图像数据，特征提取涉及到像素矩阵的获取以及高级特征的提取，如边缘检测和兴趣点定位。这些技术常用于计算机视觉任务，如物体识别和图像分类。总结来说，sklearn库提供了丰富的工具，包括字典加载特征、词频向量、TF-IDF向量和图像特征提取等，帮助用户从不同类型的数据源中高效提取有价值的信息，为后续的机器学习模型训练打下坚实的基础。无论是处理英文还是中文文本，掌握这些技术都能提升数据分析和建模的能力。

我们将简要介绍一些常用的特征提取方法：

字典加载特征:DictVectorizer

文本特征提取：词频向量(CountVectorizer) TF-IDF向量(TfidfVectorizer,TfidfTransformer)

特征哈希向量(HashingVectorizer)

图像特征提取: 提取像素矩阵提取边缘和兴趣点

一，字典加载特征

用python中的字典存储特征是一种常用的做法，其优点是容易理解。但是sklearn的输入特征必须是

numpy或scipy数组。可以用DictVectorizer从字典中加载特征转换成numpy数组，并且对分类特征

会采用独热编码(one-hot)。

In[1]:

二，文本特征提取

词库模型（Bag-of-words model）是文字模型化最常用方法，它为每个单词设值一个特征值。依据

是用类似单词的文章意思也差不多。

CountVectorizer 类会将文档全部转换成小写。然后把句子分割成词块（token）或有意义的字母序

列，并统计它们出现的次数。词块大多是单词，但是他们也可能是一些短语，字母长度小于2的词

块(如 I, a)被略去。

可以用stop_words选项排除一些常用但没有太多意义的助词(如is,are,in)。

1，字频向量(CountVectorizer)

[[ 1. 0. 0. 33.]

[ 0. 1. 0. 12.]

[ 0. 0. 1. 18.]]

Out[1]: ['city=Dubai', 'city=London', 'city=San Francisco', 'temperature']

measurements = [

{'city': 'Dubai', 'temperature': 33.},

{'city': 'London', 'temperature': 12.},

{'city': 'San Francisco', 'temperature': 18.},

]

from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer()

print(vec.fit_transform(measurements).toarray())

vec.get_feature_names()

▾

下载后可阅读完整内容，剩余9页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

成为会员后, 你将解锁

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

csdn251531103

粉丝: 0

Python sklearn特征提取实战：字典、词频与TF-IDF

7，特征的选择-Live

语音特征提取工具

人脸图像特征提取matlab代码-Live-Object-Detection-System--using-PYTHON:使用PYTHON的动态

my-book-live-debricker:在已从 WD MyBook Live 外壳中提取的硬盘驱动器上重新安装操作系统 (debrick) 的脚本

ios-snapSearch-live

Feature-Engineering-Live-sessions

custom-rhcos-live-iso

airflow-live-demo

Api-gandi-live-dns.zip

2014-sowetan-live:Sowetan Live的2014年文章摘要

MH-ET-LIVE-max30100:心率传感器

3，sklearn一般流程-Live

dy直播间基本数据采集_Douyin-live-room-data-collection.zip

iptv-live-channels:Android TV的IPTV直播频道

实时直播链接汇总工具 - Live Links-crx插件

Python实现的免费直播电视应用HALOW-LIVE-TV

利用LiveData观察Android设备功能变化-Live-Tools库

CoffeeScript开发的Alpenblick-Live项目解读

探索Apple-TV-LIVE：国际直播应用的安装与使用

你好，你好。

STM32C8T6 IAP程序升级：基于Y-Modem协议的串口Boot Loader实现与应用 - 嵌入式系统

最新资源