机器学习基础-特征工程

最新推荐文章于 2024-03-20 16:47:34 发布

Mr.Wiggles

最新推荐文章于 2024-03-20 16:47:34 发布

阅读量262

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习基础文章标签：深度学习自然语言处理神经网络

本文链接：https://blog.csdn.net/Vihagle/article/details/120784163

机器学习基础专栏收录该内容

31 篇文章

订阅专栏

特征工程在机器学习中扮演关键角色，尤其在传统方法中，如SVM和LinearRegression，需要精心构造特征以优化模型。深度学习中，神经网络能自动学习特征，但表格数据仍需手动处理，如数值型数据分bin，类别型数据one-hot编码，时间数据多尺度转换，以及特征交叉。文本数据可通过词元化、Word Embeddings或预训练语言模型（如BERT）处理。图片和视频数据常使用预训练模型提取特征。特征工程是数据与模型之间的桥梁，对于不同类型数据，处理方式各异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Capture 1

对于机器学习来说，每个模型都比较喜欢定义比较好的数据源。在深度学习浪潮之前，基本都是传统机器学习模型作为AI界的主导地位，比如SVM，Linear Regression等等，模型的选择并不多，所以对于一个问题，我们更加注重说把特征工程作为整个workflow里面最重要的部分，即把原始的数据源转换成不同模型喜欢的数据形式，从而拟合出更好的效果。
而对于深度学习里面的神经网络来说，同样是一个数据集，并不需要手动去make特征工程，它只需要通过不同的线性层+非线性层不断地去训练拟合我们的目标值，学到合适的参数即可。

Capture 2

对于不同的数据类型，有不同的特征处理方法：

Tabular Data Features - 表格数据

Int/float 数值型数据：直接输入或者将其划分为多个bin区间
Categorical data 类别型数据：one-hot encoding

tips:对于一些出现频率较低的长尾类别数值可以划分为一类，便于后续统一转换。
datetime 时间类型数据：时间多尺度转换
👉year
👉Month
👉day_of_week
👉week_of_year
👉day_of_year
Feature Combination 特征交叉：对于一些类别特征，可以通过两两之间组合得到一个新的类别特征。
$[man,female]\\👇\\ [cat,man] +[cat,female] +[dog,man] +[dog,female]$

Text Features - 文本数据

Represent text as token features：将文本数据转换成词元，然后再进行后续处理：
- Bag of words (BOW) model：通过统计词元的次数，转换成一个dataframe
- Word Embeddings(Word2Vec):先预训练出一个词元模型，把每个词元表示为一个向量，这个向量包含一定的语义信息。比如，如果两个词元的向量的余弦距离较小，就说明这两个词元在语义上比较接近。当我们拿到每个词元的向量时，可以通过sum pooling或者mean pooling等操作，把最终计算的结果向量作为当前句子的向量表达。
Pre-trained language models(Bert,GPT-3)：在未见过的语料库上预训练出一个模型，同时很好地兼顾了序列信息，在其文本的理解上有独特的见解。