机器学习算法——混淆矩阵(Confusion Matrix)之鸢尾花实例

本文介绍了混淆矩阵的概念及其在类别不平衡问题中的重要性,详细阐述了TP、FP、FN、TN等核心指标,并探讨了准确率、精确率、召回率等评价指标。通过SVM在鸢尾花数据集上的应用,展示了混淆矩阵的计算与可视化,强调了F1-Score在评估模型性能中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、理论

什么是混淆矩阵?其实就是把所有类别的预测结果与真实结果按类别放置到了同一个表里,在这个表里我们可以清楚地看到每个类别正确识别的数量和错误识别的数量。

混淆矩阵在什么情况下最好呢?答案是类别不平衡时。

混淆矩阵是除了ROC曲线和AUC之外的另一个判别分类好坏程度的方法。

TP=True Positive=真阳性(真实为0,预测为0,即将正类预测为正类)

FP=False Positive=假阳性(真实为1,预测为0,即将负类预测为正类)

FN=False Negative=假阴性(真实为0,预测为1,即将正类预测为负类)

TN=True Negative=真阴性(真实为1,预测为1,即将负类预测为负类)

针对二分类来说,混淆矩阵为

预测值=0 预测值=1
真实值=0 TN FP
真实值=1 FN TP

即,矩阵的每一列表示的是模型预测的样本情况,矩阵的每一行表示的样本的真实情况。

准确率ACC(在所有样本中,预测正确的样本所占的比例): 

### 使用SVM算法处理鸢尾花数据集机器学习示例 #### 导入必要的库 为了使用支持向量机(SVM)鸢尾花数据集进行分类,首先需要导入一些基本的Python库以及Scikit-Learn中的特定模块。 ```python import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.svm import SVC from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay ``` #### 加载并准备数据 加载鸢尾花数据集,并对其进行预处理以便于后续建模工作。这里只选取前两维特征用于简化可视化过程[^2]。 ```python # Load dataset iris = datasets.load_iris() X = iris.data[:, :2] # we only take the first two features. y = iris.target # Splitting data into training and testing sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # Feature scaling scaler = StandardScaler().fit(X_train) X_train_scaled = scaler.transform(X_train) X_test_scaled = scaler.transform(X_test) ``` #### 训练线性SVM模型 创建一个线性的支持向量分类器(`Linear SVM`)实例,并用训练集的数据拟合该模型。 ```python svc_linear = SVC(kernel='linear', C=1).fit(X_train_scaled, y_train) ``` #### 预测与性能评估 应用训练好的模型到测试集中去预测标签值,并计算准确度得分以及其他评价指标如混淆矩阵等。 ```python predictions = svc_linear.predict(X_test_scaled) accuracy = accuracy_score(y_test, predictions) print(f'Accuracy of linear SVM on Iris dataset is {accuracy:.2f}') cm = confusion_matrix(y_test, predictions) disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=iris.target_names) disp.plot(cmap=plt.cm.Blues) plt.show() ``` 上述代码展示了如何基于`sklearn`库实现了一个完整的流程:从加载数据、划分训练/测试集合、标准化变换直到最后建立线性核的支持向量机来进行多类别的分类任务,并给出了最终的结果展示方式之一—混淆矩阵图[^1]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值