图解AI数学基础 | 概率与统计

1.概率论及在AI中的使用

概率(Probability),反映随机事件出现的可能性大小。事件AAA出现的概率,用P(A)P(A)P(A)表示。

概率论(Probability Theory),是研究随机现象数量规律的数学分支,度量事物的不确定性。

概率论&应用 Probability Theory

机器学习大部分时候处理的都是不确定量或随机量。因此,相对计算机科学的其他许多分支而言,机器学习会更多地使用概率论。很多典型的机器学习算法模型也是基于概率的,比如朴素贝叶斯(Naive Bayesian)等。

在人工智能领域,概率论有广泛的应用

  • 可以借助于概率方法设计算法(概率型模型,如朴素贝叶斯算法)。
  • 可以基于概率与统计进行预测分析(如神经网络中的softmax)。

2.随机变量(Random Variable)

简单地说,随机变量是指随机事件的数量表现,是可以『随机』地取不同值的『变量』。通常,用大写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。

  • 例如,XXX为随机变量,x1x_{1}x1、x2x_{2}x2、xix_{i}xi是随机变量XXX可能的取值。

随机变量 Random Variable

随机变量可以分为『离散型随机变量』和『连续型随机变量』:

  • 离散型随机变量(discrete random variable):即在一定区间内变量取值为有限个(或可数个)。例如,某地区某年的出生人口数。
  • 连续型随机变量(continuous random variable):即在一定区间内变量取值为无限个(或数值无法一一列举出来)。例如,某地区男性健康成人的体重值。

3.随机向量(Random Vector)

随机向量 Random Vector

将几个随机变量按顺序放在一起,组成向量的形式,就是随机向量。

在样本空间全部都一样的情况下,一个nnn维的随机向量是x(ξ)→=(x1(ξ)x2(ξ)⋯xn(ξ))x \overrightarrow{(\xi)}=\left(\begin{array}{c} x_{1}(\xi) \ x_{2}(\xi) \ \cdots \ x_{n}(\xi) \end{array}\right)x(ξ)=⎝⎛x1(ξ)x2(ξ)⋯xn(ξ)⎠⎞

其中,ξ\xiξ就是样本空间中的样本点。随机变量是1维随机向量的特殊情况。

4.概率分布(Probability Distribution)

广义上,概率分布用于表述随机变量取值的概率规律。或者说,给定某随机变量的取值范围,概率分布表示该随机事件出现的可能性。

狭义地,概率分布指随机变量地概率分布函数,也称累积分布函数(Cumulative Distribution Function,CDF)。

概率分布 Probability Distribution

离散型随机变量的概率分布

  • 使用分布列描述离散型随机变量的概率分布,即给出离散型随机变量的全部取值及每个值的概率。
  • 常见的离散型随机变量的分布有:单点分布、0-1分布、几何分布、二项分布、泊松分布等。

连续型随机变量的概率分布

如果随机变量XXX的分布函数为F(x)F(x)F(x),存在非负函数f(x)f (x)f(x)使对于任意实数xxx有F(x)=∫−∞xf(t)dtF(x)=\int_{-\infty}^{x} f(t) d tF(x)=∫−∞xf(t)dt,则称XXX为连续型随机变量 ,其中函数f(x)f(x)f(x)称为XXX的概率密度函数。

常见的连续型随机变量的分布有:正态分布、均匀分布、指数分布、t−t-t−分布、F−F-F−分布、ξ2−\xi^{2}-ξ2−分布等。

机器学习中一个典型的概率分布应用,是分类问题中,很多模型最终会预估得到样本属于每个类别的概率,构成1个概率向量,表征类别概率分布。

5.条件概率(Conditional Probability)

条件概率 Conditional Probability

很多情况下我们感兴趣的是,某个事件在给定其它事件发生时出现的概率,这种概率叫条件概率。

给定AAA时BBB发生的概率记为P(B∣A)P(B \mid A)P(B∣A),概率的计算公式为:P(B∣A)=P(AB)P(A)P(B \mid A)=\frac{P(A B)}{P(A)}P(B∣A)=P(A)P(AB)

6.贝叶斯公式(Bayes’ Theorem)

先看看什么是“先验概率”和“后验概率”,以一个例子来说明:

先验概率:某疾病在人群中发病率为0.1%,那某人没有做检验之前,预计患病率为P( 患病 )=0.1%P(\text { 患病 })=0.1 %P( 患病 )=0.1%,这个概率就叫做『先验概率』。

后验概率:该疾病的检测准确率为95%,即该病患者检测显示阳性的概率为95%(检测显示阴性的概率为5%),即P( 显示阳性|患病 )=95%P(\text { 显示阳性|患病 })=95%P( 显示阳性|患病 )=95%;或者说未患病的检测者,检测结果显示阴性的概率为95%,检测显示阳性的概率为5%。那么,检测显示为阳性时,此人的患病概率P( 患病| 显示阳性)P(\text { 患病| 显示阳性})P( 患病| 显示阳性)就叫做『后验概率』。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值