【简博士统计学习方法】第1章:8. 监督学习应用

8. 监督学习应用

8.1 分类问题

当输出变量为有限个离散变量,就是分类问题。

预测输出yN+1y_{N+1}yN+1称为类别class.

8.1.1 分类准确率

对于给定的测试数据集,分类器正确分类的样本数与总样本数之比称为分类准确率:
rtest =1N′∑i′=1N′I(yi′=f^(xi′))r_{\text {test }}=\frac{1}{N^{\prime}} \sum\limits_{i^{\prime}=1}^{N^{\prime}} I\left(y_{i^{\prime}}=\hat{f}\left(x_{i^{\prime}}\right)\right)rtest =N1i=1NI(yi=f^(xi))
其中N′N^{\prime}N是测试数据集样本容量,III是示性函数,也就是当预测出来的分类与真实类别一致则I=1I=1I=1,否则I=0I=0I=0.

8.1.2 二分类问题

在二分类问题中,某个类是我们所关注的称为正类,否则称为负类,我们利用学习到的分类器可以对测试数据集中的样本进行预测,对每个输入,会得到正类和负类的预测结果。

  • 测试集中正类样本预测为正类的个数称为TPTPTP
  • 测试集中负类样本预测为正类的个数称为FPFPFP
  • 测试集中正类样本预测为负类的个数称为FNFNFN
  • 测试集中负类样本预测为负类的个数称为TNTNTN


二分类问题的评价指标

  • 精确率P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP(分母是预测结果为正类的总个数);
  • 召回率R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP(分母是样本真实类别为正类的总个数);
  • 调和值2F1=1P+1R\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}F12=P1+R1.

8.1.3 方法与应用

应用

  • 感知机
  • k近邻法
  • 朴素贝叶斯
  • 决策树
  • Logistic回归

应用

  • 银行业务
  • 网络安全
  • 图像处理
  • 手写识别
  • 互联网搜索

8.2 标注问题

8.2.1 标注问题概述

当输入和输出变量均为变量序列的时候,就是标注问题。

  • 训练集T={(x1,y1),(x2,y2)⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1,y1),(x2,y2),(xN,yN)}

    • 输入观测序列xi=(xi(1),xi(2),⋯ ,xi(n))T,i=1,2,⋯ ,Nx_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{T}, \quad i=1,2, \cdots, Nxi=(xi(1),xi(2),,xi(n))T,i=