监督学习:统计方法、决策树、规则算法及其混合算法
1. 监督学习中的统计方法
监督学习中的统计方法充分利用数据的概率知识,其中贝叶斯方法尤为突出,它运用条件概率和先验概率的概念,封装了数据的统计特征。贝叶斯分类器在给定数据概率特征的情况下,能以最低的分类错误概率进行预测,但其实证质量依赖于对基础概率密度函数的估计质量。
回归模型是基本的建模方法之一。在对数据统计特征有一定假设(如数据正态性)的情况下,可以为模型赋予评估模型质量的机制,包括生成置信区间。线性回归模型是很好的基础,同时也有许多能处理非线性关系和数据统计特性的推广形式。
1.1 最优回归模型示例
我们得到了最优模型 (y = 3.1 + 0.9x_1 + 0.56x_2),其中参数的最优值为 (\hat{a}_1 = 0.9),(\hat{a}_2 = 0.56),(\hat{a}_3 = 3.1)。这个最优回归模型是 ((x_1,x_2,y)) 空间中的平面方程。
残差(误差)为:
(e =
\begin{bmatrix}
0.0400 \
-0.1200 \
0.1200 \
-0.0400
\end{bmatrix})
最优参数的准则值为 (0.016)。
1.2 练习
以下是一些相关练习,帮助我们更好地理解和应用这些概念:
1. 两类分类问题 :考虑一个具有标量特征 (x) 的两类分类问题,先验概率 (P(c_1) = 0.3) 和 (P(c_2) = 0.7)。已知每个类的概率密度函数 (p(x|