[架构之美]特征工程完全学习路线：从入门到精通的技术指南

曼岛_

已于 2025-04-24 22:50:15 修改

阅读量1.1k

点赞数 27

CC 4.0 BY-SA版权

分类专栏：成长之路文章标签：学习机器学习人工智能

于 2025-04-15 17:27:08 首次发布

本文链接：https://blog.csdn.net/qq_29709589/article/details/147254544

成长之路专栏收录该内容

40 篇文章

订阅专栏

特征工程完全学习路线：从入门到精通的技术指南

摘要

本文系统梳理特征工程的核心技术体系，涵盖基础预处理、特征构建技巧、高阶编码方法、自动化工具等关键模块

一、特征工程基础认知

1.1 特征工程的核心价值

1.2 特征工程完整流程

# 典型特征工程Pipeline
FeaturePipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),  # 缺失值处理
    ('scaler', StandardScaler()),                  # 标准化
    ('poly', PolynomialFeatures(degree=2)),        # 多项式特征
    ('selector', SelectKBest(score_func=f_classif)) # 特征选择
])

二、数据预处理关键技术

2.1 缺失值处理方案对比

方法	适用场景	Python实现
删除法	缺失比例>60%	`df.dropna()`
均值/中位数填充	数值型特征	`SimpleImputer(strategy='mean')`
众数填充	分类特征	`SimpleImputer(strategy='most_frequent')`
模型预测填充	复杂关系数据	`KNNImputer()`

2.2 异常值检测代码示例

# 使用IQR方法检测异常值
Q1 = df['income'].quantile(0.25)
Q3 = df['income'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 过滤异常值
clean_df = df[(df['income'] >= lower_bound) & (df['income'] <= upper_bound)]

三、特征构建与变换方法

3.1 特征交互技巧

# 数值特征交互
df['age_income_ratio'] = df['age'] / df['income']

# 类别特征组合
df['city_gender'] = df['city'] + '_' + df['gender']

# 时间特征提取
df['purchase_hour'] = df['timestamp'].dt.hour

3.2 分箱离散化示例

# 等频分箱
df['income_bin'] = pd.qcut(df['income'], q=5, labels=False)

# 基于树模型的分箱
from sklearn.tree import DecisionTreeRegressor
tree_model = DecisionTreeRegressor(max_leaf_nodes=5)
tree_model.fit(df[['age']], df['income'])
df['age_bin'] = tree_model.apply(df[['age']])

四、特征选择与降维策略

4.1 特征选择方法全景图

4.2 自动特征选择实战

from sklearn.feature_selection import RFECV
from sklearn.ensemble import RandomForestClassifier

selector = RFECV(
    estimator=RandomForestClassifier(),
    step=1,
    cv=5,
    scoring='accuracy'
)
selector.fit(X, y)
selected_features = X.columns[selector.support_]

五、领域特征工程实践

5.1 文本特征工程

# TF-IDF向量化
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(max_features=500)
text_features = tfidf.fit_transform(df['content'])

# 主题模型特征
from sklearn.decomposition import LatentDirichletAllocation
lda = LatentDirichletAllocation(n_components=10)
topic_features = lda.fit_transform(text_features)

5.2 时间序列特征

# 滑动窗口统计
df['7d_avg'] = df['sales'].rolling(window=7).mean()

# 傅里叶变换提取周期特征
from scipy.fft import fft
fft_features = np.abs(fft(df['value'].values))[:10]

六、自动化特征工程工具

6.1 FeatureTools实战

import featuretools as ft

# 创建实体集
es = ft.EntitySet(id='transactions')
es = es.entity_from_dataframe(
    entity_id='orders',
    dataframe=orders_df,
    index='order_id',
    time_index='order_date'
)

# 自动生成特征
feature_matrix, features = ft.dfs(
    entityset=es,
    target_entity='orders',
    max_depth=2,
    verbose=True
)

6.2 工具对比

工具	核心技术	适用场景
FeatureTools	深度特征合成	关系型数据
TSFresh	时序特征自动提取	时间序列分析
AutoFeat	符号回归生成特征	数值型特征增强

七、常见问题与解决方案

7.1 高频问题解答

问题描述	解决方案
高基数分类特征如何处理？	目标编码+平滑处理
数值特征存在量纲差异怎么办？	标准化/归一化+分箱处理
如何评估特征重要性？	SHAP值+Permutation Importance