8. 监督学习应用
8.1 分类问题
当输出变量为有限个离散变量,就是分类问题。
预测输出yN+1y_{N+1}yN+1称为类别class.
8.1.1 分类准确率
对于给定的测试数据集,分类器正确分类的样本数与总样本数之比称为分类准确率:
rtest =1N′∑i′=1N′I(yi′=f^(xi′))r_{\text {test }}=\frac{1}{N^{\prime}} \sum\limits_{i^{\prime}=1}^{N^{\prime}} I\left(y_{i^{\prime}}=\hat{f}\left(x_{i^{\prime}}\right)\right)rtest =N′1i′=1∑N′I(yi′=f^(xi′))
其中N′N^{\prime}N′是测试数据集样本容量,III是示性函数,也就是当预测出来的分类与真实类别一致则I=1I=1I=1,否则I=0I=0I=0.
8.1.2 二分类问题
在二分类问题中,某个类是我们所关注的称为正类,否则称为负类,我们利用学习到的分类器可以对测试数据集中的样本进行预测,对每个输入,会得到正类和负类的预测结果。
- 测试集中正类样本预测为正类的个数称为TPTPTP;
- 测试集中负类样本预测为正类的个数称为FPFPFP;
- 测试集中正类样本预测为负类的个数称为FNFNFN;
- 测试集中负类样本预测为负类的个数称为TNTNTN
二分类问题的评价指标
- 精确率:P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP(分母是预测结果为正类的总个数);
- 召回率:R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP(分母是样本真实类别为正类的总个数);
- 调和值:2F1=1P+1R\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}F12=P1+R1.
8.1.3 方法与应用
应用:
- 感知机
- k近邻法
- 朴素贝叶斯
- 决策树
- Logistic回归
应用:
- 银行业务
- 网络安全
- 图像处理
- 手写识别
- 互联网搜索
8.2 标注问题
8.2.1 标注问题概述
当输入和输出变量均为变量序列的时候,就是标注问题。
-
训练集:T={(x1,y1),(x2,y2)⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1,y1),(x2,y2)⋯,(xN,yN)}
- 输入观测序列:xi=(xi(1),xi(2),⋯ ,xi(n))T,i=1,2,⋯ ,Nx_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{T}, \quad i=1,2, \cdots, Nxi=(xi(1),xi(2),⋯,xi(n))T,i=