1. 统计学概念
1.1. 数学期望
数学期望就是平均值,描述的是样本集合的中间点
1.2. 标准差
描述的是样本集合的各个样本点到均值的距离之平均
1.3. 方差
方差就是标准差的平方
1.4. 协方差
标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,协方差来度量各个维度偏离其均值的程度(公式参照方差定义)
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义);如果结果为负值, 就说明两者是负相关;如果为0,则两者之间没有关系,就是统计上说的“相互独立”。
1.5. 协方差矩阵
协方差只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算个协方差,那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
举一个三维的例子,假设数据集有三个维度,那么协方差矩阵为:
可见协方差矩阵是一个对称矩阵(因为cov(x,y)=cov(y,x)),而且对角线是各个维度的方差。
1.6. 均方误差
均方误差是指参数估计值与参数真值之差平方的期望值;
MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。
1.7. 均方根误差
均方根误差:均方根误差是均方误差的算术平方根
1.8. 平均绝对误差
平均绝对误差是绝对误差的平均值
平均绝对误差能更好地反映预测值误差的实际情况.
2. 线性代数部分
2.1. 向量的COS相似度计算
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
在向量表示的三角形中,假设a向量是(x1, y1),b向量是(x2, y2),那么可以将余弦定理改写成下面的形式:
向量a和向量b的夹角θ的余弦计算如下:
如果向量a和b不是二维而是n维,上述余弦的计算法仍然正确。假定a和b是两个n维向量,则a与b的夹角θ的余弦等于:
余弦距离使用两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比欧氏距离,余弦距离更加注重两个向量在方向上的差异。