概率论基础
生活中充满了随机性。概率论是一门用数学语言来刻画这些随机事件的学科。一个随机事件的概率是一个介于0与1之间的实数,这个实数的大小反映了这个事件发生的可能性。因此,概率为0意味着这个事件不可能发生(不可能事件),概率为1意味着这个事件必然发生(必然事件)。
以一个投掷一枚公平的硬币(出现正面和反面的概率相等,均为1/2)的经典的概率实验为例:。在现实中,如果我们重复抛一枚硬币,出现正面的频率可能不会恰好是50%。但是当抛硬币的次数增加时,出现正面的概率会越来越接近50%。如果我们用一个实数来代表抛硬币的结果:比如说1表示正面,0表示反面,那么我们称这个数为 随机变量。
基础概念
随机变量(Randon Variable)
随机变量是一种函数, 其值取决于实验结果. 换句话说他的值是不确定的并取决于一个随机事件的结果, 也可以理解成是一种在某些特定环境下进行随机采样的行为.
概率质量函数(Probability Mass Function)描述一个离散的概率分部, 即变量的取值范围 $X$ 是一个离散集合, $x$ 是 $X$ 的一个具体值. 例如, 在抛硬币例子中, 随机变量 $ X $ 的取值范围是 $ X = {0, 1} $. 与之相对的, 概率密度函数(Probability Density Function)则是用来描述连续概率.
并且概率的分布遵守中心极限定理, 其定义为对于一个(性质比较好的)分布, 如果我们有足够大的独立同分布的样本, 其样本均值会(近似地)呈正态分布. 样本数量越大, 其分布与正态越接近.
概率(Probability)
符号 $p(X = x)$ 或 $p_{X}(x)$ 描述了随机变量 $X$ 取值 $x$ 的概率. 当上下文明确时, $p(X = x)$ 通常简写成 $p(x)$
联合概率(Joint Probability)
符号 $p(X=x, Y=y)$ 或 $p(x,y)$ 描述了随机变量 $X$ 取值 $x$, 并且随机变量 $Y$ 取值 $y$ 的概率. 一个有用的公式:
$$ \sum_yp(x,y) = p(x) $$条件概率(Conditional Probability)
符号 $p(X=x| A=a)$ 或 $p(x|a)$ 描述了在已知 $A$ 取值 $a$ 的条件下, 随机变量 $X$ 取值为 $x$ 的概率. 并且可以可联合概率组成下列等式:
$$ p(x,a) = p(x|a)p(a) \Longleftrightarrow p(x|a) = \frac{p(a)}{p(x,a)} $$独立性(Independence)
如果两个随机变量的取值互不影响, 那么这两个变量是独立的. 则有:
$$ p(x,y) = p(x)p(y) $$由于$p(x,y)=p(x|y)p(y)$可以进一步推导出:
$$ p(x|y) = p(x) $$条件独立(Conditional Independence)
设 $X,A,B$ 为三个随机变量. 如果给定 $B$ 时有:
$$ p(X=x| A=a, B=b) = p(X=x| B=b) $$那么我们说 $X$ 与 $A$ 是条件独立的.
全概率公式(Formula of total Probability)
符号 $p(X=x| A=a)$ 或 $p(x|a)$ 描述了在已知 $A$ 取值 $a$ 的条件下, 随机变量 $X$ 取值为 $x$ 的概率. 在这个情况下我们可以把所有 $a$ 条件的数值相加来消去 $A$ 并根据条件概率公式可以进一步展开:
$$ p(x) = \sum_{a \in A}p(x,a) = \sum_{a \in A}p(x|a)p(a) $$期望(Expectation)
$$ \mathbb{E}[X] = \sum_xp(x)x $$条件期望(Conditional Exceptation)
$$ \mathbb{E}[X|A=a] = \sum_xp(x|a)x $$全期望公式(Furmula of total Expectation)
与全概率公式类似, 也有全期望公式:
$$ \mathbb{E}[X] = \sum_a E[X|A =a ]p(a) $$推导过程:
$$ \begin{aligned} \mathbb{E}(X) &= \sum_xp(x) \cdot x \\ &= \sum_x [\sum_a p(x|a) p(a)] \cdot x \\ &= \sum_x \sum_a p(x|a) p(a) \cdot x \\ &= \sum_a [\sum_x p(x|a) \cdot x] p(a) \\ &= \sum_a \mathbb{E}[X|A=a] p(a) \\ \end{aligned} $$统计推断(Statistical Inference)
在现实中我们往往无法对一个庞大的群体做一个完整的数据统计, 因为这个统计过程往往耗时耗力或者干脆是一个不可能达成的方法. 比如说我们不可能真的去问每一个人你是喜欢吃甜粽子还是咸粽子来推断一个城市的大致偏好, 通常方式会用一定量的样本数据推测总体特征. 统计推断通常分为两大学派: 频率学派 和 贝叶斯学派
频率学派
频率学派通过是通过直接观察数据本身来确定背后的概率分布. 点估计为统计学中最直接的一种估计参数的方法, 我们用一个取值为样本的函数来估计我们感兴趣的参数, 并称这个函数为估计量. 举例一个估计圆周率π数值的经典按理来说明.
假设一个半径为r的圆刚好被一个正方形外切, 那么它们的面积比可以表示为
$$ \begin{aligned} S_{\mathrm{circle}} &= \pi r^2 \\ S_{\mathrm{square}} &= 4r^2 \end{aligned} \qquad \Longrightarrow \qquad \pi = 4\frac{S_{\mathrm{circle}}}{S_{\mathrm{square}}} $$接着我们均匀的在正方形上随机生成n个样本, 用m来表示落入这个正方形内切圆的个数. 只要我们的样板数量足够多, 便会获得一个无限趋近于答案的值.
$$ \hat{\pi} = 4 \frac{m}{n} \approx3.14 $$点估计给出的是一个具体的估计数值, 与之不同的是置信区间. 置信区间估计的是一个参数的范围. 一个置信区间对应着一个置信水平: 一个置信水平为95%的置信区间表示这个置信区间包含了真实参数的概率为95%.
另一个在机器学习中常见的方法是Bootstrap, 这个方法通常用在当样本数量有限, 无法得出它们的分布形态的情况下. 该方法的思路是我们会先对样板进行n次的采样, 随后再该数量为n的样本进行一定次数的有放回的重采样, 利用这些新的样本来估计元样本均值的标准差. 重复这个采样-重采样的过程, 我们便可以在有限的情况下获得对参数的估计.
贝叶斯学派
贝叶斯学派的思想是用现有的数据来推导/更新特定假设的概率. 假设你最近去看了医生, 并决定检查一下自己有没有得一种罕见的疾病. 如果你很不幸地收到了阳性的结果, 你可能最想知道的是"已知这个检查结果,我真的得了这种病的概率是多少?"(毕竟医疗检查并不是100%准确的.) 有了贝叶斯公式,我们就可以准确地计算出上述事件的概率:
$$ P(患病|阳性) = \frac{P(阳性|患病)P(患病)}{P(阳性)} \Leftrightarrow P(后验) = \frac{P(似然)P(先验)}{P(总概率)} $$其中:
- P(A|B)(后验概率): 在证据 (B) 发生的情况下,事件 (A) 发生的概率(我们真正想求的)。
- P(A)(先验概率): 在考虑证据 (B) 之前,事件 (A) 发生的初始概率。
- P(B|A)(似然度): 如果事件 (A) 发生,那么出现证据 (B) 的概率。
- P(B)(边缘概率): 证据 (B) 在所有可能情况下的总概率
回归分析
回归分析是一种建立两个变量之间线性模型的方法, 是最简单的一类机器学习模型. 最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。