一.描述统计学
1.分类数据描述统计
频数统计:单纯对各分类计数即可
频数百分比:单纯对各分类计数即可
2.数值数据描述统计
统计度量
平均数:表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数
中位数:是按顺序排列的一组数据中居于中间位置的数
众数:是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平
分位数:是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(二分位数),四分位数,百分位数等
方差:描述数据的离散程度
标准差:方差开平方
数据标准化:z-score
切比雪夫定理:设X是一个随机变数取取区间(0,∞)上的值,F(x)是它的分布函数,设Xα(α >0)的数学期望M(Xα )存在,a>0,则不等式成立。
图形
箱线图:是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间
直方图:是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况
二.推断统计
贝叶斯定理:在信息和条件有限的情况下,基于过去的数据,通过动态调整的方法,帮助我们一步步预测出事件发生的接近真实的概率。其基本思想是:后验概率 = 先验概率 * 调整因子,其中,先验概率就是在信息不完整情况下做出的主观概率预测,调整因子则是在信息收集不断完善的过程中对先验概率的调整,后验概率则是经过调整后最终作出的概率预测