Scikit-learn从入门到实践:Scikit-learn机器学习基础与实践-CSDN博客

本文链接：https://blog.csdn.net/WSSWWWSSW/article/details/151138323

机器学习基础：Scikit-learn入门实践

学习目标

通过本课程的学习，学员将掌握Scikit-learn库的基本使用方法，了解如何利用Scikit-learn进行数据预处理、模型训练与评估，以及如何选择合适的模型进行预测。本课程将通过实际案例，帮助学员深入理解机器学习的核心概念和实践技巧。

学习内容

1 Scikit-learn入门实践

1.1 Scikit-learn库的安装与基本使用

Scikit-learn是Python中一个非常流行的机器学习库，它提供了简单且高效的数据挖掘和数据分析工具。Scikit-learn的设计目标是访问简单、使用方便，同时保持高性能。它支持多种机器学习算法，包括分类、回归、聚类等。

安装Scikit-learn

安装Scikit-learn非常简单，可以通过Python的包管理工具pip来安装。打开命令行工具，输入以下命令：

%pip install -U scikit-learn

这条命令会安装最新版本的Scikit-learn。
基本使用

Scikit-learn的使用非常直观。首先，需要导入所需的模块。例如，如果想要使用线性回归模型，可以这样导入：

from sklearn.linear_model import LinearRegression

生成数据集

from sklearn.model_selection import train_test_split
import numpy as np
# 创建一个简单的线性数据集
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

接下来，可以创建一个模型实例：

model = LinearRegression()

然后，使用数据训练模型：

model.fit(X_train, y_train)

在这里插入图片描述
其中，X_train是特征数据，y_train是目标数据。训练完成后，可以使用模型进行预测：

predictions = model.predict(X_test)

这里，X_test是用于预测的特征数据。

1.2 数据预处理技术

在机器学习中，数据预处理是非常重要的一步。良好的数据预处理可以显著提高模型的性能。Scikit-learn提供了多种数据预处理工具，包括数据标准化、特征缩放、数据编码等。

数据标准化

数据标准化是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的场景中，数据标准化可以给出更加准确的结果。Scikit-learn中的StandardScaler可以用来标准化数据：

from sklearn.preprocessing import StandardScaler

# 创建标准化对象
scaler = StandardScaler()

# 拟合数据
scaler.fit(X_train)

# 转换数据
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

这里，X_train和X_test分别是训练集和测试集的特征数据。

特征缩放

特征缩放是将数据缩放到一个特定的范围，如0到1之间。这可以通过MinMaxScaler来实现：

from sklearn.preprocessing import MinMaxScaler

# 创建缩放对象
scaler = MinMaxScaler()

# 拟合数据
scaler.fit(X_train)

# 转换数据
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

1.3 模型训练与评估

模型训练是机器学习的核心步骤，而模型评估则是确保模型性能的重要手段。Scikit-learn提供了多种评估模型性能的方法，包括交叉验证、混淆矩阵、ROC曲线等。

模型训练

模型训练的基本步骤包括选择模型、准备数据、训练模型和评估模型。以线性回归为例：

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 准备数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 选择模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

模型评估

模型评估可以通过多种方法进行，包括计算均方误差（MSE）、决定系数（R²）等。Scikit-learn提供了mean_squared_error和r2_score等函数来评估模型：

from sklearn.metrics import mean_squared_error, r2_score

# 预测
y_pred = model.predict(X_test)

# 计算MSE
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

# 计算R²
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2}")