概率论是不确定性的研究

Elements of probability

为了定义一个集合的概率,我们需要一些基本元素:

  • 样本空间 $\Omega$:随机试验的所有结果的集合。在这里,每个结果 $\omega \in \Omega$ 都可以看作是实验结束时,真实世界状态的完整描述。

  • 事件集(事件空间)$F$:其元素 $A\in F$(称为事件)是 $\Omega$ 的子集(即 $A \subseteq \Omega$ 是实验可能结果的集合)。

  • 概率测度:满足以下性质的函数 $P: F \rightarrow R$:

    • $P(A) \geq 0 \ for \ all \ A\in F$

    • $P(\Omega) = 1$

    • 如果 $A_1,A_2,\cdots$ 是不相交事件,则有

      $P(\cup_i A_i) = \sum_i P(A_i)$

这三个属性称为概率公理。

其他概念

  1. 样本空间:随机试验 $E$ 所有可能产生的结果的集合 $S$ 叫做样本空间,其中每个结果称为样本点.
  2. 随机事件:试验 $E$ 的样本空间 $S$ 的子集为 $E$ 的随机事件.每次试验中,当且仅当这一子集中的一个样本点出现时称这一事件发生.
  3. 必然事件:每次试验一定发生的事件.
  4. 不可能事件:每次试验一定不发生的事件,空集不包括任何样本点,每次试验一定不发生空集,所以是不可能事件.
  5. 概率:当试验次数 $n$ 趋近于无穷大时,频率逐渐稳定,可以用来表征某个事件发生可能性的大小.但是实际中无法进行多次的试验,所以使用概率进行表征事件发生的可能性,记为 $P(A)$.

性质

  • 如果 $A \subseteq B => P(A) \leq P(B)$

  • $P(A \cap B)\leq min(P(A), P(B))$

  • $P(A \cup B) \leq P(A) + P(B)$

  • 非负性:$P(A) \geq 0$

  • 规范性:对于必然事件,$P(A) = 1$

  • 有限可加性:当 $A$ 和 $B$ 是互不相容的两个事件,则 $P(A \cup B) = P(A) + P(B)$

  • $P(\null) = 0$

  • 逆事件的概率:$P(!A) = 1 - P(A)$

  • 对任意的两个事件 $A$ 和 $B$,有 $P(A \cup B) = P(A) + P(B) - P(AB)$

  • 全概率公式:如果 $A_1,\cdots,A_k$ 是一系列不相交事件,如 $\bigcup_{i=1}^k A_i = \Omega$,那么:

    $\sum_{i=1}^k P(A_i) = 1$

条件概率和独立性

令 $B$ 是非零的概率的事件,在给定条件 $B$ 的条件下 $A$ 的概率为:

$P(A|B) = {P(A \cap B) \over P(B)}$

换句话说,$P(A|B)$ 是观察事件 $B$ 发生后事件 $A$ 发生的概率。当且仅当 $P(A \cap B) = P(A)P(B)$ (或 $P(A|B) = P(A)$)时,两个事件才称为相互独立,因此,独立性等同于说观察 $B$ 对 $A$ 的概率没有任何影响。

贝叶斯公式

古典概型

详细内容:古典概型

Random variables

  1. 随机变量:

  2. 离散型随机变量:随机变量的值是有限个或者是可列无限多个.

    $P(X=k) = P(\{ \omega:X(\omega)=k\})$

  3. 连续型随机变量:随机变量的值是无限个的.

    $P(a\leq X \leq b) = P(\{\omega: a \leq X(\omega) \leq b\})$

累积分布函数

累积分布函数 $F(x)$ 是对离散型和非离散型随机变量取值的概率,描述了随机变量统计规律性.已知 $X$ 的分布函数,就知道 X 落在任意区间 $(x_1, x_2]$ 的概率,简写为($Cumulative \ distribution \ functions,CDF$),又叫做分布函数.

可以认为是给定一个随机变量值,得到了从 $0$ 到该值之间的概率累加.

累积分布函数($CDF$)是一个 $F_X : R \rightarrow [0,1]$ 特殊的概率度量函数:

$F_X(x) = P(X\leq x)$

通过使用此函数,可以计算出F中任何事件的概率。下面是 $CDF$ 的图:

性质

  • $0 \leq F_X(x) \leq 1$
  • $\lim_{x\rightarrow -\infty} F_X(x) = 0$
  • $\lim_{x \rightarrow \infty}F_X(x) = 1$
  • $x\leq y => F_X(x) \leq F_X(y)$
  • $F(x+0)= F(x)$
  • $F(X)$ 是一个不减函数.

离散型随机变量的累积分布函数是阶跃型的,连续随机变量的累积分布函数是连续型的.

概率质量函数

当随机变量 $X$ 具有一组有限的可能值时(即 $X$ 是离散随机变量变量),代表与随机变量相关的概率测度的一种更简单的方法是直接指定随机变量可以假设的每个值的概率。概率质量函数($Probability \ mass \ functions,PMF$)是一个 $p_X:\Omega \rightarrow R$ 的函数:

$p_X(x) = P(X=x)$

分布函数 $F(x)$ 不等于概率质量函数($PMF$), $F(x)= P(x_0)+\cdots + P(x)$ , 即 $F(X) = \sum_{x_k \leq x} p_{x_k}$ 或者 $F(x)=P(X\leq x) $

性质

  • $0 \leq p_X(x) \leq 1$
  • $\sum_{x\in X}p_X(x)=1$
  • $\sum_{x\in A} p_X(x) = P(X\in A)$

概率密度函数

在连续随机变量的情况下,累积分布函数 ($CDF$) 是到处可微的.在这种情况下,我们把 $CDF$ 的导数称之为概率密度函数 ($Probability \ density \ functions,PDF$).

$f_X(x) = {dF_X(x)\over d_x}$

从分布函数引出连续型随机变量的分布律: $F(x) = \int_{-\infty}^x f(t)dt$, 其中 $f(t)$ 就是概率密度函数 $(PDF)$.

概率密度函数的值不代表概率,代表了密度或者趋势,所以 $f_X(x)$ 的值可能大于 $1$.

其实,累积分布函数是为了研究连续型随机变量引出的概念.由于连续值不好研究每个值的概率,所以使用了累积的概率.而累积分布函数的微分,就代表了每个随机变量点处的概率情况,并不是具体的概率.

概率密度函数并不是总是可见的,因为累积分布函数并不是处处可微的.

性质

  • $f_X(x) \geq 1$
  • $\int_{-\infty}^\infty f_X(x)dx =1$
  • $\int_{x\in A} f_X(x)dx = P(X\in A)$
  • 对于任意实数 $x_1, x_2, (x_1 \leq x_2): P(x_1 < X \leq x_2) = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x)dx$
  • 若 f(x) 在 x 点连续, 则有 $F’(x) = f(x)$

期望

假设 $X$ 是离散型随机变量 $PMF$ 为 $p_X(x)$, $g: R \rightarrow R$ 是任意函数.在这种情况下,$g(X)$ 可以认为是随机变量,我们可以定义 $g(X)$ 的期望(Expectation)和期望值:

$E[g(X)] = \sum_{x\in X} g(x)p_X(x)$

如果 $X$ 是连续型随机变量 $PDF$ 为 $f_X(x)$,$g(X)$ 的期望值为:

$E(g(X)) = \int _{-\infty}^\infty g(x)f_X(x)dx$

直观的,可以将 $g(X)$ 的期望看做是 $g(x)$ 对 $x$ 不同值取值的加权平均,其中权重由 $p_X(x)$ 和 $f_X(x)$ 给出.一种特殊的情况,令 $g(x) = x$,可以找到随机变量本身的期望 $E[X]$,这也可以称为随机变量 $X$ 的平均值.

性质

  • $E[C] = C$
  • $E[Cf(X)] = CE[f(X)]$
  • $E[f(X) + g(X)] = E[f(X)] + E[g(X)]$
  • 如果 $X,Y$ 相互独立,$E[XY] = E[X]E[Y]$

方差

随机变量 $X$ 的方差(Variance)是对随机变量 $X$ 的分布在其均值附近的集中程度的度量。 形式上,随机变量 $X$ 的方差定义为:

$D(X) = Var[X] = E[(X-E[X])^2]$

其中开方之后叫做标准差或者均方差 $\sqrt{D(X)}$.使用上一节的性质,可以得出方差的替代表达式:

$\begin{align}D(X) = E[(X-E[X])^2] &= E[X^2 - 2XE[X] + E[X]^2] \\ &= E[X^2] - 2E[X]E[X] + E[X]^2 \\ &= E[X^2] - E[X]^2 \end{align}$

其中,第二个等式成立是由于,期望的值是一个常数和期望线性的原因.

随机变量的方差表达了 $X$ 的取值与数学期望的偏离程度,若 $D(X)$ 很小,说明 $X$ 的取值比较集中在 $E(X)$ 附近,反之若 $D(X)$ 很大,说明 $X$ 的取值很分散.

  • 方差实际上是求 $[X-E(X)]^2$ 的期望.
  • 离散型随机变量:$D(X) = \sum_{k=1}^\infty [x_k-E(X)]^2 p_k$
  • 连续型随机变量:$D(X) = \int_{-\infty}^\infty [x_k-E(X)]^2 f(x)dx$

性质

  • $D(C) = 0$
  • $D(Cf(X)) = C^2 D(f(X))$
  • $D(X+C) = D(X)$
  • $D(X+Y) = D(X) + D(Y) + 2E{(X-E(X))(Y-E(Y))}$
  • 如果 $X,Y$ 相互独立,那么 $D(X+Y) = D(X) + D(Y)$
  • $D(X) = 0$ 的充要条件是 $P{X+E(X)} = 1$.

切比雪夫不等式

设随机变量 $X$ 具有数学期望 $E(X)=\mu$,方差 $D(X) = \sigma^2$,对于任意正数 $\xi$,不等式 $P{|X-x|\geq \xi } \leq {\sigma^2 \over \xi^2}$.

常用的随机变量

离散型随机变量

  • 伯努利分布:$X ~Bernoulli(p)$

    $p(x) = \begin {cases} p & if \ p = 1 \\ 1-p & if \ p =0 \end{cases}$

  • 二项分布:$X~Binomial(n, p)$

    $p(x) = \begin{pmatrix}n \\ x \end{pmatrix} p^x (1-p)^{n-x}$

  • 几何分布:$X~Geometric(p)$

    $p(x) = p(1-p)^{x-1}$

  • 泊松分布:$X~P oisson(λ)$

    $p(x) = e^{-\lambda} {\lambda^x\over x!}$

    详细内容:泊松分布

连续型随机变量

  • 均匀分布:$X~U nif orm(a, b)$

    $f(x) = \begin{cases}{1\over b-a} & if \ a\le x \le b \\ 0 & otherwise\end{cases}$

    详细内容:

  • 指数分布:$X~Exponential(λ)$

    $f(x) = \begin{cases}\lambda e^{-\lambda x} & if \ x \ge 0 \\ 0 & otherwise \end{cases}$

    详细内容:指数分布

  • 正态分布:$X~N ormal(μ, σ 2 )$

    $f(x) = {1\over \sqrt{2\pi} \sigma} e^{-{1\over 2\sigma^2}(x-\mu)^2} $

    详细内容:正态分布(高斯分布)

下面是这些函数的图形:

下面是分布的性质公式摘要:

Two random variables

目前为止,只考虑了单变量的情况,但是在许多情况下,随机变量的个数都是多个的.下面首先来考虑两个随机变量的情况.

联合和边际分布函数

设 $E$ 是一个随机试验,它的样本空间是 $S = {e}$,设 $X = X(e)$ 和 $Y = Y(e)$ 是定义在 $S$ 上的随机变量,由他们构成的一个向量($X,Y$)叫做二维随机向量或二维随机变量.

假设我们有两个随机变量 $X$ 和 $Y$。 处理这两个随机变量的一种方法是分别考虑每个变量。 如果这样做,我们只需要 $F_X(x)$ 和 $F_Y(y)$.但是,如果我们想知道随机实验结果中 $X$ 和 $Y$ 同时取的值,我们需要一个更复杂的结构,称为联合累积 $X$ 和 $Y$ 的分布函数.

$F_{XY}(x,y) = P(X\le x, Y\le y)$

可以证明,通过知道联合分布函数,可以计算出涉及 $x,y$ 的事件概率.

$F_X(x) = \lim_{y\rightarrow \infty} F_{XY} (x,y) dy$

$F_Y(y) = \lim_{x\rightarrow \infty} F_{XY} (x,y)dx$

称 $F_X(x)$ 和 $F_Y(y)$ 为联合分布函数 $F_{XY}(x,y)$ 的边缘分布函数.

设 $(X,Y)$ 是二维随机变量,对于任意实数 $x, y$, 二元函数:$F(x,y)=P{ (X\leq x) \cap (Y\leq y)}=P{ X\leq x , Y\leq y}$称为二维随机变量 $(X, Y)$ 的分布函数,或随机变量 $X, Y$ 的联合分布函数.

性质

  • $0 \leq F_{XY}(x,y)\le 1$
  • $\lim_{x,y \rightarrow \infty} F_{XY}(x,y)=1$
  • $lim_{x,y\rightarrow -\infty} F_{XY}(x,y) = 0$
  • $F_X(x)= lim_{y\rightarrow \infty} F_{XY}(x,y)$
  • $F(x, y)$ 是变量 $x, y$ 的不减函数,且当 $x_2 > x_1$ 时有 $F(x_2,y) > F(x_1,y)$.

$F(x,y)$ 是二维随机变量$(X,Y)$的分布函数,而$X,Y$各自也有分布函数,称为二维随机变量$(X,Y)$关于随机变量$X,Y$ 的边缘分布函数.$F_x(x)=P{X\leq x}=P{X\leq x,Y<\infty}=F(x,\infty)$.同理$F_y(y)=F(\infty,y)$

联合和边际概率质量函数

如果 $X,Y$ 是离散型随机变量,那么联合概率质量函数 $p_{XY}:R \rightarrow R$ 为:

$p_{XY}(x,y) = P(X=x,Y=y)$

其中,$0 \leq P_{XY}(x,y)\leq 1$,$\sum_{x\in X} \sum_{y\in Y} P_{XY}(x,y) = 1$

那么如何区分两个变量的联合 $PMF$ 和每个变量的 $PMF$ :

$p_X(x) = \sum_{y} p_{xy}(x,y)$

同样适用于 $p_Y(y)$,在这种情况下,我们将 $p_X(x)$ 称为边际概率质量函数.在统计中,通过求和另一个变量来形成一个变量的边际分布的过程通常称为边际化。

如果二维随机变量是离散的,那么$P{X=x_i,Y=y_j} = p_{ij},i=1,2\cdots, j=1,2\cdots$为二维离散随机变量的分布律,也称随机变量 $X,Y$ 的联合分布律.

联合和边际概率密度函数

如果 $X,Y$ 是具有联合分布函数 $F_{XY}(x,y)$ 的两个连续型随机变量,在这种情况下,$F_{XY}(x,y)$ 在 $x,y$ 上处处可微.那么定义联合概率密度函数为:

$f_{XY}(x,y)={\partial^2 F_{XY}(x,y) \over \partial x \partial y}$

与一维度的情况一样 $f_{XY}(x,y) \neq P(X=x,Y=y)$,但是

$\int \int_{x\in A} f_{XY}(x,y)dxdy = P((X,Y)\in A)$

概率密度函数 $f_{XY}(x,y)$ 的值总是非负的,但是可能会大于 $1$.尽管如此,在某些情况下 $\int \int f_{XY}(x,y) = 1$.

类似离散型随机变量,我们定义:

$f_X(x) = \int_{-\infty} ^\infty f_{XY} (x,y)dy$

称为 $X$ 的边际概率密度函数,同样适用于 $Y$.

对于二维随机变量$X,Y$ 有分布函数 $F(X,Y)$, 对于任意$x,y$有: $F(x,y)=\int_{-\infty}^\infty\int_{-\infty}^\infty(\mu,v)d\mu dv$ ,则称$f(\mu, v)$ 是二维随机变量$(X,Y)$ 的概率密度,或随机变量 $X,Y$ 的联合概率密度.称二维随机变量 $X,Y$ 是连续型随机变量.

其他

  1. 如果是离散的,那么就叫做边缘分布律,如果是连续的,那么就叫做边缘概率密度.
  2. 知道边缘分布,无法确定联合分布.

条件概率

条件分布试图回答以下问题:当我们知道 $X$ 必须取某个值 $x$ 时,$Y$ 上的概率分布是多少? 在离散情况下,给定 $Y$ 的 $X$ 的条件概率质量函数很简单:

$p_{Y|X} (y|x) = {p_{XY}(x,y)\over p_X(x)}$

假设 $p_X(x) \neq 0$.

在连续情况下,这种情况在技术上要复杂一些,因为连续随机变量 $X$ 取特定值 $x$ 的概率等于零。 忽略此技术要点,我们仅通过类似于离散情况的定义,将给定 $X = x$ 的 $Y$ 的条件概率密度定义为:

$f_{Y|X}(y|x) = {f_{XY}(x,y)\over f_X(x)}$

假设 $f_X(x) \neq 0$.

条件分布律:$P{X=x_i|Y=y_j}={P{X=x_i, Y=y_j} \over P{ Y=y_j}} = {p_{i,j}\over p_j}$

贝叶斯定则

贝叶斯定律是一个有用的公式,当试图针对一个给定另一个变量的条件概率来推导表达式时,经常会出现这种公式.

对于离散随机变量 $X$ 和 $Y$:

$P_{Y|X} (y|x) = {P_{XY}(x,y)\over P_X(x)} = {P_{X|Y}(x|y)P_Y(y) \over \sum_{y\in Y} P_{X|Y}(x|y) P_Y(y)} $

简单点写:

$P(y|x) = {P(xy)\over p(x)} = {P(x|y)P(y) \over \sum_y (P(x|y) P(y))}$

对于连续随机变量 $X$ 和 $Y$:

$f_{Y|X}(y|x) = {f_{XY}(x,y)\over f_X(x)} = {f_{X|Y}(x|y) f_Y(y)\over \int_{-\infty}^\infty f_{X|Y}(x|y)f_Y(y) dy}$

独立性

对于所有 $x,y$,如果 $F_{XY}(x,y) = F_X(x)F_Y(y)$,那么两个随机变量 $X,Y$ 相互独立. 等效的:

  • 对于离散随机变量,$p_{XY}(x,y) = p_X(x)p_Y(y)$
  • 对于离散随机变量,$p_{Y|X}(y|x) = p_Y(y)$
  • 对于连续随机变量,$f_{XY}(x,y)=f_X(x)f_Y(y)$
  • 对于连续随机变量,$f_{Y|X}(y|x) = f_Y(y)$

非正式地,如果知道一个变量的值永远不会对另一个变量的条件概率分布有任何影响,则两个随机变量 $X$ 和 $Y$ 是独立的,也就是说,您知道有关该对($X,Y$)的所有信息。 只知道 $f(x)$ 和 $f(y)$ 。 以下引理将这种观察形式化:

如果 $X,Y$ 相互独立,那么对于任何子集 $A,B \in R$ 有:

$P(X\in A, Y\in B) = P(X\in A) P(Y \in B)$

通过使用上述引理,可以证明如果 $X$ 独立于 $Y$,那么 $X$ 的任何函数都独立于 $Y$ 的任何函数。

期望和协方差

假设有两个随机离散变量 $X,Y$ 和 $g:R^2 \rightarrow R$ 是关于这两个随机变量的函数.他们的期望 $E$ 可以用如下等式表示:

$E[g(X,Y)] = \sum_{x\in X}\sum_{y\in Y} g(x,y)p_{XY}(x,y)$

对于连续随机变量 $X,Y$,期望为:

$E[g(X,Y)] = \int\int g(x,y)f_{XY}(x,y)dxdy$

我们可以使用期望的概念来研究两个随机变量之间的关系。 特别地,两个随机变量 $X$ 和 $Y$ 的协方差定义为:

$Cov(X,Y) = E[(X-E[X])(Y-E[Y])]$

与方差类似,可以改写为:

$\begin{align}Cov(X,Y) &= E[(X-E[X])(Y-E[Y])] \\ &= E[XY -XE[Y]-YE[X] + E[X]E[Y]] \\ & = E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] \\ & = E[XY] -E[X]E[Y] \end{align}$

当 $Cov(X,Y) = 0$ 时,我们说 $X,Y$ 不相关.

性质

  • $E[f(X,Y)+g(X,Y)] = E[f(X,Y)] + E[g(X,Y)]$
  • $D(X+Y) = D(X)+D(Y) + 2Cov(X,Y)$
  • $Cov(X,Y) = Cov(Y,X)$
  • $Cov(X,X) = D(X)$
  • $Cov(aX, bY) = abCov(X,Y)$
  • $Cov(X_1 +X_2, Y)= Cov(X_1,Y) +Cov(X_2,Y)$
  • 如果 $X$ 和 $Y$ 是相互独立的,那么 $Cov(X,Y) = 0$
  • 如果 $X$ 和 $Y$ 是相互独立的,那么 $E[f(X)g(Y)]= E[f(X)]E[g(Y)]$

Multiple random variables

基本性质

定义 $X_1,\cdots,X_n$ 的联合分布函数和联合概率密度函数,给定 $X_2,\cdots,X_n$ 情况下的 $X_1$ 的边缘概率密度函数和条件概率密度函数

$F_{X_1,\cdots,X_n}(x_1,\cdots,x_n) = P(X_1\leq X,\cdots,X_n\leq X)$

$f_{X_1\cdots,X_n} (x_1,\cdots,x_n) = {\partial^n F_{X_1,\cdots,X_n} \over \partial x_1 \cdots \partial x_n}$

$f_{X_1}(X_1) = \int \cdots \int f_{X_1,\cdots, X_n}(x_1,\cdots,x_n)dx_2,\cdots,dx_n$

$f_{X_1|X_2,\cdots,X_n}(x_1|x_2,\cdots,x_n) = {f_{X_1,\cdots,X_n}(x_1,\cdots,x_n)\over f_{X_2,\cdots,X_n}(x_2,\cdots,x_n)}$

计算 $A$ 的概率:

$P((x_1,\cdots,x_n) \in A) = \int_{(x_1,\cdots,x_n)\in A} f_{X_1,\cdots,x_n} (x_1,\cdots,x_n)dx_1\cdots dx_n$

链式法则

根据多个随机变量的条件概率的定义,可以证明:

$\begin {align} f(x_1,\cdots,x_n) &= f(x_n|x_1,\cdots,x_{n-1})f(x_1,\cdots,x_{n-1}) \\ &= f(x_n|x_1,\cdots,x_{n-1})f(x_{n-1}|x_1,\cdots, x_{n-2}) f(x_1,\cdots,x_{n-2}) \\ &= \cdots \\ &= f(x_1) \prod_{i=2}^n f(x_i|x_1,\cdots,x_{i-1}) \end{align}$

独立性

对于多个随机事件,$A_1,\cdots,A_k$,如果对于任意子集 $S \in {1,2,\cdots,k}$ 都是相互独立的,那么:

$P(\cap_{i\in S}A_i) = \prod_{i\in S} P(A_i)$

同样的,对于随机变量 $X_1,\cdots,X_n$,如果是相互独立的,那么:

$f(x_1,x_2,\cdots,x_n) = f(x_1)f(x_2)\cdots f(x_n)$

独立随机变量经常出现在机器学习算法中,其中我们假设属于训练集的训练示例代表来自某些未知概率分布的独立样本。为了清楚说明独立性的重要性,请考虑一个不良训练集,在该训练集中,我们首先从一些未知分布中采样单个训练示例$(x^{(1)},y^{(1)})$,然后添加 $m − 1$ 个副本 与训练集完全相同的训练示例。 在这种情况下,我们有(有些滥用符号)

$P((x^{(1)}, y^{(1)}), \cdots, (x^{(m)}, y^{(m)})) \neq \prod _{i=1}^m P(x^{(i)},y^{(i)})$

$(x^{(i)}, y^{(i)})$ 是样本,可能是不独立同分布的,并不是多随机变量,所以是不等式。

尽管训练集的大小为 $m$,但示例并非独立! 虽然这里描述的过程显然不是为机器学习算法构建训练集的明智方法,但事实证明,在实践中,确实经常出现样本不独立的情况,并且具有减小训练集有效大小的作用。

随机向量

假设有 $n$ 个随机变量,当它们在一起时,可以放入一个向量中,称之为随机向量 $X = [X_1,X_2,\cdots, X_n]^T$。随机向量只是 $n$ 个随机变量的替代表示方法,所以对应的 $CDF$ 和 $PDF$ 等性质同样适用于随机向量。

期望

对于多随机变量的期望:

$E[g(X)]= \int g(x_1,\cdots,x_n)f_{X_1,\cdots,X_n}(x_1,\cdots,x_n)dx_1 dx_2\cdots dx_n$

如果换成向量的形式:

$g(X) = \begin{bmatrix} g_1(x) \\ g_2(x) \\ \vdots \\ g_m(x) \end{bmatrix}$

$E[g(X)] = \begin{bmatrix} E[g_1(X)] \\ E[g_2(X)] \\ \vdots \\ E[g_m(X)] \end{bmatrix}$

协方差矩阵

对于给定的随机向量 $X:\Omega \rightarrow R^n$,其协方差矩阵 $\Sigma$ 是一个 $n\times n$ 的方阵,每个元素为 $\Sigma_{ij} = Cov(X_i,X_j)$。

根据协方差的定义,有:

$\begin{align} \Sigma &= \begin{bmatrix} Cov(X_1,X_1) & \cdots & Cov(X_1,X_n) \\ \vdots & \ddots & \vdots \\ Cov(X_n,X_1) & \cdots & Cov(X_n,X_n) \end{bmatrix} \\ &= \begin{bmatrix} E[X^2_1]-E[X_1]E[X_1] & \cdots & E[X_1X_n]-E[X_1]E[X_n] \\ \vdots & \ddots & \vdots \\ E[X_nX_1]-E[X_n]E[X_1] & \cdots & E[X_N^2]-E[X_n]E[X_n] \end{bmatrix} \\ &= \begin{bmatrix} E[X^2_1] & \cdots & E[X_1X_n] \\ \vdots & \ddots & \vdots \\ E[X_nX_1] & \cdots & E[X^2_n] \end{bmatrix} - \begin{bmatrix} E[X_1]E[X_1] & \cdots & E[X_1]E[X_n] \\ \vdots & \ddots & \vdots \\ E[X_n]E[X_1] & \cdots & E[X_n]E[X_n] \end{bmatrix} \\ &= E[XX^T] - E[X]E[X]^T \\ &= \cdots \\ &= E[(X-E[X])(X-E[X])^T]\end{align}$

协方差矩阵有很多有用的性质:

  • $\Sigma \geq 0$,那么 $\Sigma$ 为半正定。
  • $\Sigma = \Sigma^T$, 那么 $\Sigma$ 是对称的。

多变量高斯分布

随机向量 $X$ 上概率分布的一个特别重要的例子称为多元高斯分布或多元正态分布。一个随机向量 $X \in R^n$ 表示具有均值 $\mu \in R^n$,协方差矩阵 $\Sigma \in S^n_{++}$ 的多元正态分布(或高斯分布,其中 $S^n_{++}$ 表示 $n\times n$ 的正定方阵 )。

$f_{X_1,\cdots ,X_n}(x_1,\cdots,x_n;\mu,\Sigma) = {1\over (2\pi)^{n\over 2}|\Sigma|^{1\over 2}} exp(-{1\over 2}(x-\mu)^T \Sigma ^{-1}(x-\mu))$

通常写为:$X~ N(\mu, \Sigma)$。

一般而言,高斯随机变量在机器学习和统计中非常有用,主要有两个原因。首先,在统计算法中对“噪声”进行建模时,它们非常常见。通常,噪声可以认为是影响测量过程的大量小独立随机扰动的累积;根据中心极限定理,独立随机变量的总和将趋于看起来是高斯。其次,高斯随机变量对于许多分析操作很方便,因为在实践中出现的许多涉及高斯分布的积分都具有简单的封闭形式解。

其他

大数定律

大数定律是叙述随机变量序列的前一些项的算术平均值在某种条件下收敛到这些项的均值的算术平均值。

中心极限定理

中心极限定理是确定在什么条件下,大量随机变量之和的分布逼近于正态分布。