数据归一化：4步精通预处理技巧

原创于 2025-08-27 20:46:43 发布 · 792 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #机器学习 #算法

机器学习专栏收录该内容

18 篇文章

订阅专栏

在机器学习和数据分析中，归一化是数据预处理的关键一步，它能显著提升模型性能和收敛速度。本文将带你全面理解归一化的核心概念、实践方法和应用场景。

1️⃣ 什么是归一化？

归一化是一种基础而强大的数据预处理技术，它将不同特征的数值缩放到统一的尺度范围内，消除不同变量之间的量纲差异。通过归一化，我们可以将原始数据映射到特定范围（如[0, 1]或[-1, 1]），使不同特征具有相似的数值范围。

归一化的核心公式

最小-最大归一化：
标准化(Z-score)：

2️⃣ 为什么需要归一化？

消除量纲差异

不同特征往往有不同的量纲单位（如身高-厘米、体重-千克），这些差异会影响算法的计算结果。归一化后，所有特征都处于相同尺度，使模型能够公平对待每个特征。

避免权重不平衡

在基于距离的算法（如KNN、K-means聚类）中，数值范围大的特征会主导距离计算：

# 未归一化数据导致距离计算偏差
point1 = [170, 65]  # 身高(cm), 体重(kg)
point2 = [165, 70]
distance = np.sqrt((170-165)**2 + (65-70)**2)  # 身高差异主导距离

提高模型收敛速度

梯度下降类算法（如神经网络、SVM）在归一化后的数据上收敛更快：

未归一化数据：优化路径曲折，收敛慢
归一化数据：优化路径更直接，收敛快

3️⃣ 归一化的主要方法

方法1：最小-最大归一化(Min-Max Scaling)

原理：将数据线性映射到[0, 1]区间
适用场景：输出范围有要求、数据分布集中的情况
Python实现：

from sklearn.preprocessing import MinMaxScaler

data = [[1, 2000], [2, 3000], [3, 4000]]
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)
# 输出：[[0.  0. ], [0.5 0.5], [1.  1. ]]

方法2：标准化(Z-score)

原理：将数据转换为均值为0、标准差为1的标准正态分布
适用场景：需要计算距离/相似度、进行PCA降维
Python实现：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)
# 输出：[[-1.2247, -1.2247], [0., 0.], [1.2247, 1.2247]]

方法对比表

特性	最小-最大归一化	标准化(Z-score)
输出范围	[0, 1]或[-1, 1]	无固定范围
异常值敏感度	高（受min/max影响）	低
数据分布	保持原始分布	转换为标准正态分布
适用算法	神经网络、图像处理	聚类、分类、PCA

4️⃣ 何时使用归一化？

使用最小-最大归一化当：

需要固定输出范围（如神经网络输入层）
数据分布集中，不存在极端异常值
处理图像像素值（[0,255] → [0,1]）

使用标准化当：

数据存在异常值或噪声
需要计算特征距离/相似度
进行聚类分析或PCA降维
数据不符合正态分布

不要归一化当：

决策树类算法（如Random Forest、XGBoost）
数据已经是标准化格式
单一特征的数据集

🛠️ Python实战：房价预测中的归一化应用

from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# 加载加州房价数据集
housing = fetch_california_housing()
X, y = housing.data, housing.target

# 划分训练集/测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建包含归一化的管道
pipeline = make_pipeline(
    StandardScaler(),  # 标准化处理
    GradientBoostingRegressor()
)

# 训练和评估
pipeline.fit(X_train, y_train)
score = pipeline.score(X_test, y_test)
print(f"模型R²分数: {score:.4f}")