Skip to content

Latest commit

 

History

History
1105 lines (602 loc) · 48.3 KB

2020-03-01-概率论笔记.md

File metadata and controls

1105 lines (602 loc) · 48.3 KB
layout title date categories tags comments mathjax copyrights
post
概率论笔记
2020-03-01 00:00:00 +0800
数学
note probability
true
true
原创

本文为概率论笔记。

随机事件及概率

随机事件

  • 概念:

    • 确定现象 / 随机现象 / 模糊现象

    • 随机试验(E)

    • 随机事件(基本事件 / 样本空间) / 必然事件 / 不可能事件

    • 对立事件: $$A\cup B=\Omega, AB=\varnothing$$

  • 运算规律:

    • 交换律

      $$A\cup B=B\cup A$$

      $$AB=BA$$

    • 结合律

      $$\left(A\cup B\right)\cup C=A\cup \left(B\cup C\right)=A\cup B\cup C$$

      $$\left(AB\right)C=A\left(BC\right)=ABC$$

    • 分配律

      $$\left(A\cap B\right)\cup C=\left(A\cup C\right)\cap\left(B\cup C\right)$$

      $$\left(A\cup B\right)\cap C=\left(A\cap C\right)\cup\left(B\cap C\right)$$

    • 摩根公式

      $$\overline{A\cup B}=\overline{A}\cap\overline{B}$$

      $$\overline{A\cap B}=\overline{A}\cup\overline{B}$$

随机事件的概率

如果在 $$n$$ 次重复随机试验中,事件 $$A$$ 发生了 $$n_A$$ 次,称比值 $$f_{n}{\left(A\right)}=\frac{n_A}{n}$$ 为事件 $$A$$ 发生的频率

等可能概型

$$P\left(A\right)=\frac{A中所含基本事件数}{基本事件总数}=\frac{^{#}A}{^{#}\Omega}$$

条件概率

$$P\left(A\mid B\right)=\frac{P\left(AB\right)}{P\left(B\right)}$$

  • 全概率公式

    设随机试验 $$E$$ 的事件组 $$A_1,A_2,\cdots$$ 是样本空间 $$\Omega$$ 的一组划分(有穷或无穷),假定对于每一个 $$i$$,$$P\left(A_i\right)>0$$,则对于任意事件 $$B$$

    $$P\left(B\right)=\sum_{i=1}^{n}{P\left(A_i\right)P\left(B\mid A_i\right)}$$

  • 贝叶斯公式

    设随机试验 $$E$$ 的事件组 $$A_1,A_2,\cdots$$ 是样本空间 $$\Omega$$ 的一组划分(有穷或无穷),假定对于每一个 $$i$$,$$P\left(A_i\right)>0$$,则对于任意事件 $$B$$,只要 $$P\left(B\right)>0$$,有

    $$P\left(A_i\mid B\right)=\frac{P\left(A_i B\right)}{P\left(B\right)}=\frac{P\left(A_i\right)P\left(B \mid A_i\right)}{\sum_{k=1}^{n}{P\left(A_k\right)P\left(B\mid A_k\right)} }$$

随机事件独立性

$$P\left(A\cap B\right)=P\left(A\right)P\left(B\right)$$,则 $$A$$$$B$$ 相互独立

  • 独立扩张定理

    事件 $$A_1,A_2,\cdots,A_n$$ 相互独立,将任意多个事件替换成它们各自的对立事件后,任然是 $$n$$ 个相互独立的事件

随机变量及其概率分布

随机变量

$$E$$ 是一个随机试验,$$\Omega=\left{\omega\right}$$ 是其样本空间,如果对每一个 $$\omega \in\Omega$$ 有唯一的实数 $$X\left(\omega\right)$$ 与之对应,则称 $$X$$$$E$$ 的一个随机变量

随机变量的分布函数

$$X$$ 是一个随机变量,$$x\in \mathbb{R}$$ 是一个实数,函数 $$F\left(x\right)-P\left(X\leq x\right)$$ 就称为随机变量 $$X$$ 的概率分布函数,简称分布函数

  • 分布函数的定义域为一切实数

  • 分布函数在 $$x$$ 处的取值所表示的是随机变量 $$X$$$$\left(-\infty,x\right]$$ 上的概率

  • 性质:

    • 单调不减,若 $$x_1<x_2$$ ,则 $$F\left(x_1\right)\leq F\left(x_2\right)$$

    • $$0\leq F\left(x\right)\leq1, F\left(-\infty\right)=0, F\left(+\infty\right)=1$$

    • 右连续,$$F\left(x+0\right)=F\left(x\right)$$

  • 常用公式:

    • $$P\left(X\leq b\right)=F\left(b\right)$$

    • $$P\left(a\leq X\leq b\right)=F\left(b\right)=F\left(a\right)$$

    • $$P\left(X>b\right)=1-F\left(b\right)$$

    • $$P\left(X<b\right)=F\left(b-0\right)$$

    • $$P\left(X=b\right)=F\left(b\right)-F\left(b-0\right)$$

离散型随机变量

  • 分布列 / 分布律:

    $$P\left(X=x_k\right)=p_k$$

    $$X$$ $$x_1$$ $$x_2$$ $$\cdots$$ $$x_k$$ $$\cdots$$
    $$P$$ $$p_1$$ $$p_2$$ $$\cdots$$ $$p_k$$ $$\cdots$$
  • 分布函数:

    $$F\left(x\right)=P\left(X\leq x\right)=\sum_\limits{x_k\leq x}{p_k}$$

    $$\left(0-1\right)$$ 分布:

    $$P\left(X=x\right)=p^x {\left(1-p\right)}^{1-x}, x=0,1$$

  • 二项分布:

    把试验 $$E$$ 在相同的条件下重复进行 $$n$$ 次各次试验的结果有限且互不影响,则称这$$n$$次试验为 $$n$$ 次独立试验

    如果每次试验只有两个结果,则 $$n$$ 次独立试验又称为 $$n$$ 重贝努里试验

    $$X$$$$n$$ 重贝努里试验中成功的次数,

    $$P\left(X=k\right)=C_{n}^{k}p^k{\left(1-p\right)}^{n-k}, k=0,1,2,\cdots ,n$$

    记为 $$X\sim B\left(n,p\right)$$

    $$k$$ 为最可能成功的次数时,称 $$P\left(X=k\right)$$二项分布的中心项

  • 泊松分布:

    $$P\left(X=k\right)=\frac{ {\lambda}^k}{k!}e^{-\lambda}, k=0,1,2,\cdots ,\lambda>0$$

    记为 $$X\sim P\left(\lambda\right)$$

    • $$B\left(n,p\right)$$$$n$$ 较大,$$p$$ 较小时,趋近于泊松分布,$$\lambda=np$$
  • 超几何分布:

    $$P\left(X=k\right)=\frac{C_{M}^{k}C_{N_M}^{n-k} }{C_{N}^{n} }, k=0,1,2,\cdots,\min\left{n,M\right}$$

    记为 $$X\sim H\left(N,M,n\right)$$

  • 几何分布:

    $$P\left(X=k\right)=pq^{k-1}, k=1,2,3,\cdots$$

    记为 $$X\sim G\left(P\right)$$

  • 负二项分布 / 帕斯卡分布:

    $$P\left(X=k\right)=C_{r-1}^{k-1}p^r{\left(1-p\right)}^{k-r}, k=r,r+1,\cdots$$

    记为 $$X\sim NB\left(r,p\right)$$

连续型随机变量

若存在非负可积函数 $$f\left(x\right)$$,使得对于任一实数 $$x$$,有 $$F\left(x\right)=\int_{-\infty}^{x}{f\left(t\right)\mathrm{d}t}$$,则称 $$X$$连续型随机变量,其中函数 $$f\left(x\right)$$ 称为 $$X$$概率密度函数(PDF),简称为概率密度

  • $$f\left(x\right)\geq0,x\in\mathbb{R}$$

  • $$\int_{-\infty}^{+\infty}{f\left(x\right)\mathbf{d}x}=1$$

  • $$F^{\prime}\left(x\right)=f\left(x\right)$$

  • $$P\left(X=x_0\right)=0$$

  • $$P\left(X\in I\right)=\int_{I}{f\left(x\right)\mathbf{d}x}$$

  • 均匀分布:

    $$f\left(x\right)=\left{ \begin{array}{lr} \frac{1}{b-a} &a\leq x\leq b\ 0 &其它 \end{array} \right.$$

    记为 $$X\sim U\left[a,b\right]$$

  • 指数分布:

    $$f\left(x\right)=\left{ \begin{array}{lr} \lambda e^{-\lambda x} &x>0\ 0 &x\leq0 \end{array} \right.$$

    记为 $$X\sim e\left(\lambda\right)$$

    $$P\left(X>n+k\mid X>n\right)=P\left(X>k\right)$$

  • 正态分布:

    $$f\left(x\right)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{ {\left(x-\mu\right)}^2}{2{\sigma}^2} }$$

    记为 $$X\sim N\left(\mu,{\sigma}^2\right)$$

    • $$x=\mu$$ 时曲线处于最高点

      $$\sigma$$ 越大,曲线越矮胖

    • $$N\left(0,1\right)$$标准正态分布

    • $$X\sim N\left(\mu,{\sigma}^2\right)$$,则 $$Y=\frac{X-\mu}{\sigma}\sim N\left(0,1\right)$$

      $$F\left(x\right)=P\left(X\leq x\right)=P\left(\frac{X-\mu}{\sigma}\leq\frac{x-\mu}{\sigma}\right)=\Phi\left(\frac{x-\mu}{\sigma}\right)$$

    • $$\Phi\left(-x\right)=1-\Phi\left(x\right)$$

  • $$\alpha$$ 分位点 $$x_a$$: $$P\left(X>x_a\right)=\alpha$$

随机变量函数的分布

已知随机变量 $$X$$ 的分布,$$g\left(x\right)$$ 是一连续函数,求 $$Y=g\left(x\right)$$ 的分布

  • $$X$$ 为离散型随机变量

  • $$X$$ 为连续型随机变量

    • $$X$$ 的密度函数为 $$f_{X}\left(x\right)$$,则随机变量 $$Y=g\left(X\right)$$ 的分布函数为

      $$F_{Y}{\left(y\right)}=P\left(Y\leq y\right)=P\left(g\left(X\right)\leq y\right)=\int_{g\left(x\right)\leq y}{f_{X}{\left(x\right)}\mathrm{d}x}$$

    $$f_{Y}{\left(y\right)}=\frac{\mathrm{d} }{\mathrm{d}y}F_{Y}{\left(y\right)}$$

    • $$X$$ 的概率密度函数为 $$f_{X}{\left(x\right)}$$,若 $$g^{\prime}{\left(x\right)}>0$$$$g^{\prime}{\left(x\right)}<0$$,记 $$x=h\left(y\right)$$ 为$$y=g\left(x\right)$$ 的反函数,则 $$Y=g\left(X\right)$$ 概率密度为

      $$f_{Y}{\left(y\right)}=\left{ \begin{array}{lr} f_{X}{\left(h\left(y\right)\right)}\lvert h^{\prime}{\left(y\right)}\rvert &y\in g\left(R\right)\ 0 &\text{其它} \end{array} \right.$$

      其中 $$g\left(R\right)=\left{g\left(x\right)\mid x\in R\right}$$$$g\left(x\right)$$ 的值域

随机向量及其概率分布

二维随机向量的联合分布

$$\Omega=\left{\omega\right}$$ 是随机试验 $$E$$ 的样本空间,$$X$$ 和 $$Y$$ 是定义在 $$\Omega$$ 上的随机变量,由它们构成的二维向量 $$\left(X,Y\right)$$ 称为 $$E$$ 的一个二维随机向量

  • 联合分布函数

    $$F\left(x,y\right)=P\left(X\leq x,Y\leq y\right)$$

    • $$0\leq F\left(x,y\right)\leq1$$,

      $$F\left(-\infty,y\right)=0$$,

      $$F\left(x,-\infty\right)=0$$,

      $$F\left(-\infty,-\infty\right)=0$$,

      $$F\left(+\infty,+\infty\right)=1$$;

    • $$F\left(x_1,y\right)\leq F\left(x_2,y\right) x_1<x_2$$,

      $$F\left(x,y_1\right)\leq F\left(x,y_2\right) y_1<y_2$$;

    • $$F\left(x,y\right)=F\left(x+0,y\right)$$,

      $$F\left(x,y\right)=F\left(x,y+0\right)$$;

    • $$P\left(x_1<X\leq x_2,y_1<Y\leq y_2\right)=F\left(x_2,y_2\right)-F\left(x_2,y_1\right)+F\left(x_1,y_1\right)-F\left(x_1,y_2\right)$$.

  • 二维离散型随机变量

    • $$p_{ij}\geq0$$

    • $$\sum_\limits{i}{\sum_\limits{j}{p_{ij} }}=1$$

    • $$F\left(x,y\right)=\sum_\limits{x_i\leq i}{\sum_\limits{y_j\leq j}{p_{ij} }}$$

  • 连续型二维变量

    $$F\left(x,y\right)=\int_{-\infty}^{y}{\int_{-\infty}^{x}{f\left(x,y\right)\mathrm{d}x\mathrm{d}y} }$$

    • $$f\left(x,y\right)\geq0$$

    • $$\int_{-\infty}^{+\infty}{\int_{-\infty}^{+\infty}{f\left(x,y\right)\mathrm{d}x\mathrm{d}y} }=1$$

    • $$f\left(x,y\right)=\frac{ {\partial^{2}{F\left(x,y\right)} }}{\partial{x}\partial{y} }$$

    • $$G$$ 为平面 $$xy$$ 上的一个区域,则 $$P\left{\left(X,Y\right)\in G\right}=\iint_\limits{G}{f\left(x,y\right)\mathrm{d}x\mathrm{d}y}$$

  • 二维均匀分布

    $$G$$ 为平面 $$xy$$ 上的一个区域,$$S$$ 是 $$G$$ 的面积,则

    $$f\left(x,y\right)=\left{ \begin{array}{lr} \frac{1}{S} &\left(x,y\right)\in G\ 0 &\left(x,y\right)\not\in G \end{array} \right.$$

  • 二维正态分布

    $$f\left(x,y\right)=\frac{1}{2\pi {\sigma}_1{\sigma}_2\sqrt{1-r^2} }\exp{\left[-\frac{1}{2\left(1-r^2\right)}\left(\frac{ {\left(x-{\mu}1\right)}^2}{ {\sigma}{1}^{2} }-2r\frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1\sigma_2}+\frac{ {\left(y-{\mu}2\right)}^2}{ {\sigma}{2}^{2} }\right)\right]}$$

    $$-\infty<\mu_1,\mu_2<+\infty,\sigma_1>0,\sigma_2>0,\lvert r\rvert <1$$

    记作 $$\left(X,Y\right)\sim N\left(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;r\right)$$

  • $$\Gamma$$函数

    $$\Gamma\left(\alpha\right)=\int_{0}^{+\infty}{x^{\alpha-1}e^{-x}\mathrm{d}x},\alpha>0$$

    $$\Gamma\left(\alpha+1\right)=\alpha\Gamma\left(\alpha\right)$$

边缘分布

  • 定义

    $$F_{1}{\left(x\right)}=F_{X}{\left(x\right)}=F{\left(x,+\infty\right)}$$

    $$F_{2}{\left(y\right)}=F_{Y}{\left(y\right)}=F{\left(+\infty,y\right)}$$

  • 边缘分布率

    若联合分布律为 $$P\left(X=x_i,Y=y_i\right)=p_{ij},i,j=1,2,\cdots$$,则

    $$X$$ 的边缘分布率 $$P\left(X=x_i\right)=\sum_{j=1}^{\infty}{p_{ij} }=p_i,i=1,2,\cdots$$

    $$Y$$ 的边缘分布率 $$P\left(Y=y_j\right)=\sum_{i=1}^{\infty}{p_{ij} }=p_j,j=1,2,\cdots$$

  • 边缘概率密度

    $$f_{X}{\left(x\right)}=\int_{-\infty}^{+\infty}{f\left(x,y\right)\mathrm{d}y}$$

    $$f_{Y}{\left(y\right)}=\int_{-\infty}^{+\infty}{f\left(x,y\right)\mathrm{d}x}$$

条件分布

  • 定义

    • 连续型随机变量

      $$F_{Y\mid X}{\left(y\mid x\right)}=P\left(Y\leq y\mid X=x\right)=\frac{P\left(X=x,Y\leq y\right)}{P\left(X=x\right)}=\lim_\limits{\alpha \rightarrow0}{\frac{F\left(x,y\right)-F\left(x-\alpha,y\right)}{F\left(x,+\infty\right)-F\left(x-\alpha,+\infty\right)} }$$

    • 离散型随机变量

      $$P\left(Y=j\mid X=i\right)=\frac{P\left(X=i,Y=j\right)}{P\left(X=i\right)}=\frac{p_{ij} }{p_i\cdot}$$

  • 条件概率密度

    $$f_{Y\mid X}{\left(y\mid x\right)}=\frac{f\left(x,y\right)}{f_{X}{\left(x\right)} }$$

随机变量的独立性

  • 定义

    $$F\left(x,y\right)=F_{X}{\left(x\right)}\cdot F_{Y}{\left(y\right)}$$,则称 $$X$$$$Y$$ 是相互独立的

  • 充要条件

    • $$P\left(X=x_i,Y=y_i\right)=P\left(X=x_i\right)P\left(Y=y_i\right)$$

    • $$f\left(x,y\right)=f_{X}{\left(x\right)}f_{Y}{\left(y\right)}$$

$$n$$维随机向量

  • 定义

    • 联合分布函数

      $$F\left(x_1,\cdots,x_n\right)=P\left(X_1\leq x_1,\cdots,X_n\leq x_n\right)$$

    • 联合分布律

      $$P\left(X_1=x_{i}^{\left(1\right)},\cdots,X_n=x_{j}^{\left(n\right)}\right)=p_{i\cdots j}$$

    • 联合概率密度

      $$F\left(x_1,\cdots,x_n\right)=\int_{-\infty}^{x_1}{\cdots{\int_{-\infty}^{x_n}{f\left(x_1,\cdots,x_n\right)\mathrm{d}x_1} }\cdots \mathrm{d}x_n}$$

随机向量函数的分布

  • 二维连续型随机变量

    $$Z=g\left(X,Y\right)$$

    • 分布函数

      $$F_{Z}{\left(z\right)}=P\left(Z\leq z\right)=P\left(g\left(X,Y\right)\leq z\right)=\iint_\limits{g\left(x,y\right)\leq z}{f\left(x,y\right)\mathrm{d}x\mathrm{d}y}$$

    • 概率密度

      $$f_{Z}{\left(z\right)}=\frac{\mathrm{d} }{\mathrm{d}z}F_{Z}{\left(z\right)}$$

    • 卷积公式

      $$f_{X}\cdot f_{Y}=f_{Z}{\left(z\right)}=\int_{-\infty}^{+\infty}{f_{X}{\left(x\right)}f_{Y}{\left(z-x\right)\mathrm{d}x} }=\int_{-\infty}^{+\infty}{f_{X}{\left(z-y\right)}f_{Y}{\left(y\right)\mathrm{d}y} }$$

随机变量的数字特征

数学期望

  • 定义

    • 设离散型随机变量 $$X$$ 的分布律为 $$P\left(X=x_i\right)=p_i,i=1,2,\cdots$$,若级数 $$\sum_\limits{i=1}^{\infty}{\lvert x_i\rvert p_i}$$ 收敛,则 $$X$$ 的数学期望存在,$$EX=\sum_\limits{i=1}^{\infty}{x_ip_i}$$

    • 设连续型随机变量 $$X$$ 的分布律为 $$f\left(x\right)$$,若积分 $$\int_{-\infty}^{+\infty}{\lvert x\rvert f\left(x\right)\mathrm{d}x}$$ 收敛,则 $$X$$ 的数学期望存在,$$EX=\int_{-\infty}^{+\infty}{xf\left(x\right)\mathrm{d}x}$$

  • 常见数学期望

    • $$\left(0,1\right)$$ 分布

      $$EX=p$$

    • 二项分布 $$B\left(n,p\right)$$

      $$P\left(X=k\right)=C_{n}^{k}p^k{\left(1-p\right)}^{n-k}, k=0,1,2,\cdots ,n$$

      $$EX=np$$

    • 泊松分布 $$P\left(\lambda\right)$$

      $$P\left(X=k\right)=\frac{ {\lambda}^k}{k!}e^{-\lambda}, k=0,1,2,\cdots ,\lambda>0$$

      $$EX=\lambda$$

    • 几何分布 $$G\left(p\right)$$

      $$P\left(X=k\right)=pq^{k-1}, k=1,2,3,\cdots$$

      $$EX=\frac{1}{p}$$

    • 超几何分布 $$H\left(N,M,n\right)$$

      $$P\left(X=k\right)=\frac{C_{M}^{k}C_{N_M}^{n-k} }{C_{N}^{n} }, k=0,1,2,\cdots,\min\left{n,M\right}$$

      $$EX=\frac{nM}{N}$$

    • 均匀分布 $$U\left(a,b\right)$$

      $$f\left(x\right)=\left{ \begin{array}{lr} \frac{1}{b-a} &a\leq x\leq b\ 0 &其它 \end{array} \right.$$

      $$EX=\frac{a+b}{2}$$

    • 指数分布 $$e\left(\lambda\right)$$

      $$f\left(x\right)=\left{ \begin{array}{lr} \lambda e^{-\lambda x} &x>0\ 0 &x\leq0 \end{array} \right.$$

      $$EX=\frac{1}{\lambda}$$

    • 正态分布 $$N\left(\mu,{\sigma}^2\right)$$

      $$f\left(x\right)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{ {\left(x-\mu\right)}^2}{2{\sigma}^2} }$$

      $$EX=\frac{2\sigma}{\sqrt{2\pi} }+\lvert \mu\rvert =\mu<+\infty$$

  • 随机变量函数的数学期望

    • $$Y=g\left(X\right)$$

      • $$X$$ 为离散型随机变量,其分布律为 $$P\left(X=x_k\right)=p_k,k=1,2,\cdots$$,则 $$EY=\sum_\limits{k=1}^{\infty}{g\left(x_k\right)p_k}$$

      • $$X$$ 为连续型随机变量,其密度函数为 $$f\left(x\right)$$,则 $$EY=\int_{-\infty}^{+\infty}{g\left(x\right)f\left(x\right)\mathrm{d}x}$$

    • $$Z=g\left(X,Y\right)$$

      • $$\left(X,Y\right)$$ 为离散型随机变量,则 $$EY=\sum_\limits{j=1}^{\infty}{\sum_\limits{i=1}^{\infty}{g\left(x_i,y_j\right)p_{ij} }}$$

      • $$\left(X,Y\right)$$ 为连续型随机变量,则 $$EY=\int_{-\infty}^{+\infty}{\int_{-\infty}^{+\infty}{g\left(x,y\right)f\left(x,y\right)\mathrm{d}x}\mathrm{d}y}$$

  • 数学期望的性质

    • $$EC=C$$

    • $$E\left(CX\right)=CEX$$

    • $$E\left(X+Y\right)=EX+EY$$

      $$E\left(\sum_\limits{i=1}^{n}{X_i}\right)=\sum_\limits{i=1}^{n}{EX_i}$$

      $$E\left(aX+b\right)=aEX+b$$

    • $$X,Y$$ 相互独立,则 $$E\left(X\cdot Y\right)=EX\cdot EY$$

方差

  • 定义

    $$DX=E{\left(X-EX\right)}^2=EX^2-{\left(EX\right)}^2$$

  • 常见方差

    • $$\left(0,1\right)$$ 分布

      $$DX=pq$$

    • 二项分布 $$B\left(n,p\right)$$

      $$DX=np\left(1-p\right)$$

    • 泊松分布 $$P\left(\lambda\right)$$

      $$DX=\lambda$$

    • 几何分布 $$G\left(p\right)$$

      $$DX=\frac{q}{p^2}$$

    • 均匀分布 $$U\left(a,b\right)$$

      $$DX=\frac{ {\left(b-a\right)}^2}{12}$$

    • 指数分布 $$e\left(\lambda\right)$$

      $$DX=\frac{1}{ {\lambda}^2}$$

    • 正态分布 $$N\left(\mu,{\sigma}^2\right)$$

      $$DX={\sigma}^2$$

  • 方差的性质

    • $$DC=0$$

    • $$D\left(aX+b\right)=a^2DX$$

    • $$X,Y$$ 相互独立,则 $$D\left(aX\pm bY\right)=a^2DX+ b^2DY$$

    • 标准化随机变量 $$X^{}=\frac{X-EX}{\sqrt{DX} },EX^{}=0,DX^{*}=1$$

    • $$DX\leq E{\left(X-C\right)}^2,C=EX$$ 时取等号

    • $$DX=0\Longleftrightarrow P\left(X=EX\right)=1$$

  • 不等式

    • 切比雪夫不等式

      $$\forall \varepsilon>0,P\left(\lvert X-EX\rvert \geq\varepsilon\right)\leq\frac{DX}{ {\varepsilon}^2}$$

    • 马尔可夫不等式

      $$\forall \varepsilon>0,P\left(\lvert X\rvert \geq\varepsilon\right)\leq\frac{E{\lvert k\rvert }^k}{ {\varepsilon}^k}\left(k=1,2,\cdots\right)$$

协方差和相关系数

  • 定义

    $$\mathrm{Cov}{\left(X,Y\right)}=E\left(X-EX\right)\left(Y-EY\right)=EXY-EXEY$$

    相关系数 $${\rho}_{XY}=\frac{\mathrm{Cov}{\left(X,Y\right)} }{\sqrt{DX\cdot DY} }$$

    • $${\rho}_{XY}=0$$ 时,称 $$X,Y$$ 不相关

    • $$X,Y$$ 相互独立,则其一定不相关;但若 $$X,Y$$ 不相关,却未必相互独立

  • 协方差的性质

    • $$\mathrm{Cov}{\left(X,Y\right)}=\mathrm{cov}{\left(Y,X\right)}$$

    • $$\mathrm{Cov}{\left(X,X\right)}=DX$$

    • $$\mathrm{Cov}{\left(aX,bY\right)}=ab\mathrm{Cov}{\left(X,Y\right)}$$

    • $$\mathrm{Cov}{\left(X,C\right)}=0$$

    • $$\mathrm{Cov}{\left(\sum_\limits{i=1}^{n}{c_i x_i},Y\right)}=\sum_\limits{i=1}^{n}{c_i \mathrm{Cov}{\left(X_i,Y\right)} }$$

  • 相关系数

    • $$\lvert {\rho}_{XY}\rvert \leq1$$

    • $$\lvert {\rho}_{XY}\rvert =1\Longleftrightarrow \exists a,b,a\neq 0,P\left(Y=aX+b\right)=1$$

矩和协方差矩阵

  • 随机变量各种数学期望的集中称呼,反映了概率在随机变量空间上的分布。

    • $${\alpha}_k=EX^k$$$$X$$$$k$$ 阶原点矩

    • $${\beta}^k=E{\left(X-EX\right)}^k$$$$X$$$$k$$ 阶中心矩

    • $$EX^kY^l$$$$X$$$$Y$$$$\left(k+l\right)$$ 阶混合原点矩

    • $${\gamma}_{kl}=E{\left(X-EX\right)}^k{\left(Y-EY\right)}^l$$$$X$$$$Y$$ 的$$\left(k+l\right)$$ 阶混合中心矩

    数学期望 $$EX$$$$X$$$$1$$ 阶原点矩

    方差 $$DX$$$$X$$$$2$$ 阶中心矩

    协方差 $$\mathrm{Cov}\left(X,Y\right)$$$$X$$$$Y$$$$\left(1+1\right)$$ 阶混合中心矩

    若高阶矩存在,则低阶矩一定存在,如方差存在则期望一定存在。

  • 协方差矩阵

    $$X=\left(X_1,X_2,\cdots,X_n\right)$$$$n$$ 维随机向量,

    $$\mu=\left(\mu_1,\mu_2,\cdots,\mu_n\right),\mu_i=EX_i,i=1,2,\cdots,n$$ 称为 $$X$$ 的期望向量

    $$\sigma_{ij}=E\left(X_i-\mu_i\right)\left(X_j-\mu_j\right)$$$$X_i$$$$X_j$$ 的协方差

    则称 $$n$$ 阶矩阵 $$\Sigma=\left[\begin{matrix}\sigma_{11}&\cdots&\sigma_{1n}\\vdots&&\vdots\\sigma_{n1}&\cdots&\sigma_{nn}\end{matrix}\right]$$ 为 $$X$$ 的协方差矩阵

    • $$\sigma_{ii}=DX_i$$

    • $$\sigma_{ij}=\sigma_{ji}$$

    • $$\forall t=\left(t_1,t_2,\cdots,t_n\right),t\sum{t^T}=\sum_\limits{i,j=1}^{n}{t_i\sigma_{ij}t_j\geq0}$$

    • $${\sigma}{ij}^{2}\leq \sigma{ii}\cdot\sigma_{jj}$$

  • $$n$$ 维正态分布

    $$n$$ 维随机向量 $$X=\left(X_1,X_2,\cdots,X_n\right)$$ 的联合概率密度为

    $$f\left(x\right)=\frac{1}{ {\left(2\pi\right)}^{\frac{n}{2} }{\lvert \Sigma\rvert }^{\frac{1}{2} }}\exp{\left[-\frac{1}{2}\left(x-\mu\right)\Sigma^{-1}{\left(x-\mu\right)}^T\right]}$$

    其中

    $$x=\left(x_1,x_2,\cdots,x_n\right),\mu=\left(\mu_1,\mu_2,\cdots,\mu_n\right),\Sigma={\left(\sigma_{ij}\right)}_{n\times n},\Sigma$$

    正定, $$\lvert \Sigma\rvert $$$$\Sigma$$ 的行列式,则称 $$X$$ 服从 $$n$$ 维正态分布,记为 $$X\sim N\left(\mu_{1\times n},\Sigma_{n\times n}\right)$$

    • $$X\sim N\left(\mu_{1\times n},\Sigma_{n\times n}\right)\Longleftrightarrow \forall l=\left(l_1,l_2,\cdots,l_n\right), Xl^T\sim N\left(\mu l^T,\Sigma l^T\right)$$

    • $$C_{m\times n}$$为实矩阵,$$X\sim N\left(\mu_{1\times n},\Sigma_{n\times n}\right)\Longrightarrow Y=XC^T\sim N\left(\mu C^T,\Sigma C^T\right)$$

    • $$X_1,X_2,\cdots,X_n$$ 相互独立,$$X\sim N\left(\mu_{1\times n},\Sigma_{n\times n}\right)\Longleftrightarrow \Sigma$$ 为对角矩阵.

极限定理

大数定律

  • 定义

    • $$\left{X_n\right}\left(n=1,2,\cdots \right)$$ 为一随机变量序列,$$X$$ 为随机变量,若对于 $$\forall \varepsilon>0$$,有 $$\lim_\limits{n\rightarrow \infty}{P\left{\lvert X_n-X\rvert \geq\varepsilon\right} }=0$$,则称序列 $$\left{X_n\right}$$ 依概率收敛于 $$X$$,记作 $$\left{X_n\right}\xrightarrow{P}X$$

      • $$A_n=\left{\lvert X_n-X\rvert <\varepsilon\right},p_n=P\left(A_n\right)$$,则 $$p_n\rightarrow 1 (n\rightarrow\infty)$$ 时,$$X_n$$ 以很大的可能性靠近 $$X$$,其中 $$\varepsilon$$ 为误差(随机性消失)
    • $$\left{X_n\right}\left(n=1,2,\cdots \right)$$ 为一随机变量序列,数学期望 $$EX_n$$ 存在,记 $$\overline{X_n}=\frac{1}{n}\sum_\limits{k=1}^{n}{X_k}$$,若 $$\overline{X_n}\xrightarrow{P}E\overline{X_n}$$,则称序列 $$\left{X_n\right}$$ 服从大数定律

  • 切比雪夫大数定律

    $$X_1,X_2,\cdots,X_n,\cdots$$ 为相互独立的随机变量所构成的序列,其中 $$EX_k=\mu_k,DX_k\leq C<+\infty\left(k=1,2,\cdots,n,\cdots\right)$$,则 $$\forall \varepsilon>0,$$

    $$\lim_\limits{n\rightarrow \infty}{P\left(\lvert \frac{1}{n}\sum_\limits{k=1}^{n}{X_k}-\frac{1}{n}\sum_\limits{k=1}^{n}{\mu_k}\rvert \geq\varepsilon\right)}=0$$

    • 相互独立,期望存在,方差有限,算术平均值依概率收敛到它本身的数学期望
  • 辛钦大数定律

    $$\left{X_n\right}$$ 独立同分布,$$EX_n=\mu\left(n=1,2,\cdots\right)$$ 存在,则 $$\forall \varepsilon>0,$$$$\lim_\limits{n\rightarrow \infty}{P\left(\lvert \frac{1}{n}\sum_\limits{k=1}^{n}{X_k}-\mu\rvert \geq\varepsilon\right)}=0$$

    • 切比雪夫大数定律加上同分布(注意这时方差不要求存在)
  • 伯努利大数定律

    $$n_A$$$$n$$ 次独立重复试验中事件 $$A$$ 发生的次数,$$p$$ 是事件 $$A$$ 在每次试验中发生的概率,则 $$\forall \varepsilon>0,$$

    $$\lim_\limits{n\rightarrow \infty}{P\left(\lvert \frac{n_A}{n}-p\rvert \geq\varepsilon\right)}=0$$

    • 辛钦大数定律加上同分布到 $$(0-1)$$ 分布

    • 伯努利定律说明 , 事件 $$A$$ 发生的频率 $$\frac{n_A}{n}$$ 以概率收敛到事件 $$A$$ 发生的概率 $$p$$, 这就以严格的数学形式表达了频率的稳定性。 就是说 , 当 $$n$$ 很大时 , 事件 $$A$$ 发生的频率与概率有较大的差别的可能性很小 , 因而在实际中便可以用频率来代替概率 。

中心极限定律

  • 定义

    相互独立的随机变量序列 $$\left{X_n\right}$$,设 $$EX_n,DX_n\left(n=1,2,\cdots \right)$$ 存在,令 $$Y_n=\frac{\sum_\limits{i=1}^{n}{EX_i}-\sum_\limits{i=1}^{n}{X_i} }{\sqrt{\sum_\limits{i=1}^{n}{DX_i} }}$$,若 $$\lim_\limits{n\rightarrow \infty}{P\left{Y_n\leq x\right} }=\Phi\left(x\right)=\frac{1}{\sqrt{2\pi} }\int_{-\infty}^{x}{e^{-\frac{t^2}{2} }\mathrm{d}t}$$ 成立,则称 $$\left{X_n\right}$$ 服从中心极限定理

  • 林德贝格定理

    $$\left{X_n\right}$$ 相互独立,数学期望和方差存在 $$EX_k=\mu_k,DX_k=\sigma_{k}^2\left(k=1,2,\cdots,n,\cdots\right)$$,记 $$B_n^2=\sum_\limits{k=1}^{n}{\sigma_{k}^2}$$,若 $$\forall\varepsilon>0$$,有 $$\lim_\limits{n\rightarrow \infty}{\frac{1}{B^2}\sum_\limits{k=1}^{n}{\int_{\lvert x-\mu_k\rvert \geq\varepsilon B_n}{ {\left(x-\mu_k\right)}^2\mathrm{d}{F_k\left(x\right)} }} }=0$$,则 $$\left{X_n\right}$$ 服从中心极限定理

    • 相互独立,期望方差存在,满足林德贝格条件,序列和的标准化随机变量在$$n$$很大的时候满足标准正态分布

    • 某随机变量由大量相互独立的随机因素的综合影响所成,且每一个别因素在总的影响中所起的作用都很小,这种变量往往近似地服从正态分布

    • $$B_n^2=\sum_\limits{k=1}^{n}{\sigma_{k}^2}$$,若 $$\forall\varepsilon>0$$,有 $$\lim_\limits{n\rightarrow \infty}{\frac{1}{B^2}\sum_\limits{k=1}^{n}{\int_{\lvert x-\mu_k\rvert \geq\varepsilon B_n}{ {\left(x-\mu_k\right)}^2\mathrm{d}{F_k\left(x\right)} }} }=0$$ 件就是对每一个子因素影响都很小的要求条件

  • 独立同分布的中心极限定理

    设$$\left{X_n\right}$$ 独立同分布,数学期望和方差存在 $$EX_k=\mu,DX_k=\sigma^2<+\infty\left(k=1,2,\cdots\right)$$,则 $$\forall\varepsilon\in \mathbb{R}$$

    $$\lim_\limits{n\rightarrow \infty}{P\left(\frac{\sum_\limits{k=1}^{n}{X_k}-n\mu}{\sqrt{n}\sigma}\leq x\right)}=\Phi\left(x\right)$$

    • 林德贝格定理加上同分布
  • 德莫佛-拉普拉斯定理

    设随机变量 $$\mu_n$$ 服从二项分布 $$B\left(n,p\right)$$,对于 $$\forall x$$,有

    $$\lim_\limits{n\rightarrow \infty}{P\left(\frac{\mu_n-np}{\sqrt{np\left(1-p\right)}\sigma}\leq x\right)}=\Phi\left(x\right)$$

    • 应用

      $$\mu_n$$$$n$$ 重伯努利试验中事件 $$A$$ 发生的次数,则 $$\mu_n\sim B\left(n,p\right)$$,其中 $$p=P\left(A\right)$$

      $$P\left(\lvert \frac{\mu_n}{n}-p\rvert <\varepsilon\right)=2\Phi\left(\varepsilon\sqrt{\frac{n}{pq} }\right)-1$$

    • $$\eta_n\sim B\left(n,p\right)$$,则当 $$n\rightarrow \infty$$,$$p$$ 不是很小(如 $$0.5$$)时,$$\eta_n$$ 近似服从正态分布 $$N\left(np,np\left(1-p\right)\right)$$;$$p$$ 很小时用 $$\lambda=np$$ 的泊松分布更精确

抽样分布

基本概念

  • 总体

    我们把所研究的全部元素组成的集合称作母体或总体 , 总体中的每一个元素称为个体

    我们只研究感兴趣的某个或者几个指标(记为 $$X$$),因此把这些指标的分布称为总体的分布,记为$$X\sim F\left(x\right)$$

  • 个体

    设总体 $$X$$ 具有分布函数 $$F\left(x\right)$$,若 $$X_1,X_2,\cdots,X_n$$ 是具有分布函数 $$F\left(x\right)$$ 的相互独立的随机向量,则称其为总体 $$F$$(或总体 $$X$$)的简单随机样本 ,简称样本 , 它们的观察值 $$x_1,x_2,\cdots,x_n$$ 称为样本观察值 , 又称为 $$X$$$$n$$ 个独立的观察值

  • 统计量

    $$X_1,X_2,\cdots,X_n$$ 是来自总体 $$X$$ 的一个样本 ,$$g\left(X_1,X_2,\cdots,X_n\right)$$ 是一个与总体分布中未知参数无关的样本的连续函数,则称 $$g\left(X_1,X_2,\cdots,X_n\right)$$ 为统计量

    统计量是样本的函数,它是一个随机变量,如果 $$x_1,x_2,\cdots,x_n$$ 是样本观察值 , 则 $$g\left(x_1,x_2,\cdots,x_n\right)$$ 是统计量 $$g\left(X_1,X_2,\cdots,X_n\right)$$ 的一个观察值

    • 常用统计量

      • 样本均值 $$\overline{X}=\frac{1}{n}\sum_\limits{i=1}^{n}{X_i}$$

      • 样本方差 $$S^2=\frac{1}{n-1}\sum_{i=1}^{n}{ {\left(X_i-\overline{X}\right)}^2}$$

      • 样本 $$k$$ 阶原点矩 $$A_k=\frac{1}{n}\sum_\limits{i=1}^{n}{X_i^k},k=1,2,\cdots$$

      • 样本 $$k$$ 阶中心矩 $$B_k=\frac{1}{n}\sum_\limits{i=1}^{n}{ {\left(X_i-\overline{X}\right)}^k},k=2,3,\cdots$$

        • 当样本容量很大时,$$B_2\approx S^2$$

        • 总体 $$X$$$$k$$ 阶矩存在,则当 $$n$$ 很大时,$$A_k$$ 依概率收敛到 $$a_k$$

        • 样本的联合分布

          • $$X\sim F\left(x\right)$$,$$X_1,X_2,\cdots,X_n$$ 为 $$F$$ 的一个样本,则 $$X_1,X_2,\cdots,X_n$$ 的联合分布函数为$$F^{*}\left(x_1,x_2,\cdots,x_n\right)=\prod_\limits{i=1}^{n}{F\left(x_i\right)}$$

          • 若总体 $$X$$ 是离散型随机变量,其分布律为 $$p_x=P\left(X=x\right),x=x_1,x_2,\cdots$$,则 $$X_1,X_2,\cdots,X_n$$ 的联合分布函数为 $$P\left(X_1=y_1,\cdots,X_n=y_n\right)=\prod_\limits{i=1}^{n}{F\left(X_i=y_i\right)}$$,其中 $$y_i=x_1,x_2,\cdots$$

          • $$X$$ 具有概率密度 $$f\left(x\right)$$,则 $$X_1,X_2,\cdots,X_n$$ 的联合分布函数为 $$f^{*}\left(x_1,x_2,\cdots,x_n\right)=\prod_\limits{i=1}^{n}{F\left(x_i\right)}$$

        • $$X_1,\cdots,X_n$$ 是总体 $$X$$ 的样本,$$EX=\mu,DX={\sigma}^2$$ 存在,

          $$\left{ \begin{array}{lr} E\overline{X}=\mu\ D\overline{X}=\frac{ {\sigma}^2}{n} \end{array} \right.\left{ \begin{array}{lr} ES^2={\sigma}^2\ DS^2=\frac{2{\sigma}^4}{n-1} \end{array} \right.$$

          $$\overline{X}\xrightarrow{P}\mu,S^2\xrightarrow{P}{\sigma}^2$$

统计中的重要分布

统计量 $$g\left(X_1,X_2,\cdots,X_n\right)$$ 的分布称为抽样分布

  • $$\chi^2$$-分布

    • 定义

      $$X_1,X_2,\cdots,X_n$$ 来自总体 $$N\left(0,1\right)$$ 的样本,则称统计量 $$\chi^2=X_1^2+X_2^2+\cdots+X_n^2$$ 服从自由度为 $$n$$的$$\chi^2$$ 分布,记作 $$\chi^2\sim\chi^2\left(n\right)$$

    • $$\chi^2\left(n\right)$$ 概率密度为 $$f\left(y\right)=\left{ \begin{array}{lr} \frac{1}{2^{\frac{n}{2} }\Gamma\left(\frac{n}{2}\right)}y^{\frac{n}{2}-1}e^{-\frac{y}{2} } &y>0\ 0 &y\leq0 \end{array} \right.$$

    • $$\Gamma$$ 分布和 $$\chi^2\left(n\right)$$ 分布关系

      $$\chi^2=\sum_\limits{i=1}^{n}{X_i^2}\sim\Gamma\left(\frac{n}{2},\frac{1}{2}\right)$$

    • 性质

      • $$\chi_1^2\sim\chi^2\left(m\right),\chi_2^2\sim\chi^2\left(n\right)$$,且 $$\chi_1^2,\chi_2^2$$ 独立,有 $$\chi_1^2+\chi_2^2\sim \chi^2\left(m+n\right)$$

      • $$\chi^2\sim\chi^2\left(n\right)$$,则 $$E\left(\chi^2\right)=n,D\left(\chi^2\right)=2n$$

    • $$\chi^2$$ 分布的上 $$\alpha$$ 分位点

      对于给定整数 $$\alpha,0<\alpha<1,P\left(\chi^2>\chi_{\alpha}^{2}{\left(n\right)}\right)=\int_{\chi_{\alpha}^{2}{\left(n\right)} }^{+\infty}{f\left(y\right)\mathrm{d}y}=\alpha$$ 的点 $$\chi_{\alpha}^{2}{\left(n\right)}$$$$\chi^2\left(n\right)$$ 分布的上 $$\alpha$$ 分位点

  • $$t$$-分布

    • 定义

      $$X\sim N\left(0,1\right),Y\sim\chi^2\left(n\right)$$,且 $$X,Y$$ 相互独立,则称 $$T=\frac{X}{\sqrt{\frac{Y}{n} }}$$ 服从自由度为 $$n$$$$t$$-分布,记作 $$T\sim t\left(n\right)$$

    • $$t\left(n\right)$$ 概率密度为 $$f\left(t\right)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)}{\left(1+\frac{t^2}{n}\right)}^{-\frac{n+1}{2} },-\infty<t<+\infty$$

      • $$\lim_\limits{n\rightarrow \infty}{f\left(t\right)}=\frac{1}{\sqrt{2\pi} }e^{-\frac{t^2}{2} }$$,即当 $$n$$ 充分大时,$$t$$-分布近似 $$N\left(0,1\right)$$ 分布
    • $$t$$-分布的上 $$\alpha$$ 分位点

      对于给定整数 $$\alpha,0<\alpha<1,P\left(t>t_{\alpha}{\left(n\right)}\right)=\int_{t_{\alpha}{\left(n\right)} }^{+\infty}{f\left(t\right)\mathrm{d}t}=\alpha$$ 的点 $$t_{\alpha}{\left(n\right)}$$$$t\left(n\right)$$ 分布的上 $$\alpha$$ 分位点

      • $$t_{1-\alpha}{\left(n\right)}=-t_{\alpha}{\left(n\right)}$$.
  • $$F$$-分布

    • 定义

      $$U\sim \chi^2\left(m\right),V\sim\chi^2\left(n\right)$$,且 $$U,V$$ 相互独立,则称 $$F=\frac{\frac{U}{m} }{\frac{V}{n} }$$ 服从自由度为 $$\left(m,n\right)$$$$F$$-分布,记作 $$F\sim F\left(m,n\right)$$

    • $$F$$ 分布的概率密度为 $$\psi\left(y\right)=\left{ \begin{array}{lr} \frac{\Gamma\left(\frac{m+n}{2}\right){\left(\frac{m}{n}\right)}^{\frac{m}{2} }y^{\frac{m}{2}-1} }{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right){\left(1+\frac{m}{n}y\right)}^{\frac{m+n}{2} }} &y>0\ 0 &y\leq0 \end{array} \right.$$

    • 性质

      • $$F\sim F\left(m,n\right)$$,则 $$\frac{1}{F}\sim F\left(n,m\right)$$
    • $$F$$-分布的上 $$\alpha$$ 分位点

      对于给定整数 $$\alpha,0<\alpha<1,P\left(F>F_{\alpha}{\left(m,n\right)}\right)=\alpha$$ 的点 $$F_{\alpha}{\left(m,n\right)}$$$$F$$-分布的上 $$\alpha$$ 分位点

      • $$F_{1-\alpha}{\left(m,n\right)}=\frac{1}{F_{\alpha}{\left(n,m\right)} }$$.

正态总体中统计量的分布

  • 单个正态总体

    $$\left(X_1,\cdots,X_n\right)$$ 为来自总体 $$N\left(\mu,{\sigma}^2\right)$$ 的一组容量为 $$n$$ 的样本,令 $$\overline{X}=\frac{1}{n}\sum_\limits{i=1}^{n}{X_i},S^2=\frac{1}{n-1}\sum_{i=1}^{n}{ {\left(X_i-\overline{X}\right)}^2}$$,则

    • $$U=\frac{\overline{X}-\mu}{\sigma}\sqrt{n}\sim N\left(0,1\right)$$

    • $$\overline{X}$$$$S^2$$ 相互独立

    • $$\frac{\left(n-1\right)S^2}{ {\sigma}^2}=\sum_\limits{i=1}^{n}{ {\left(\frac{X_i-\overline{X} }{\sigma}\right)}^2}\sim \chi^2\left(n-1\right)$$

    • $$T=\frac{\overline{X}-\mu}{S}\sqrt{n}\sim t\left(n-1\right)$$

  • 两个正态总体

    $$\left(X_1,\cdots,X_m\right)$$ 为来自总体 $$X\sim N\left(\mu_1,{\sigma}1^2\right)$$ 的一组容量为 $$m$$ 的样本,$$\left(Y_1,\cdots,Y_n\right)$$ 为来自总体 $$Y\sim N\left(\mu_2,{\sigma}2^2\right)$$ 的一组容量为 $$n$$ 的样本,两组样本相互独立,令 $$\overline{X}=\frac{1}{m}\sum\limits{i=1}^{m}{X_i},S{1m}^2=\frac{1}{m-1}\sum_{i=1}^{m}{ {\left(X_i-\overline{X}\right)}^2},\overline{Y}=\frac{1}{n}\sum_\limits{i=1}^{n}{Y_i},S_{2n}^2=\frac{1}{n-1}\sum_{i=1}^{n}{ {\left(Y_i-\overline{Y}\right)}^2}$$,则

    • $$\frac{\left(\overline{X}-\overline{Y}\right)-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{ {\sigma}_1^2}{m}+\frac{ {\sigma}_2^2}{n} }}\sim N\left(0,1\right)$$;

    • $$\frac{\left(m-1\right)S_{1m}^2}{ {\sigma}1^2}+\frac{\left(n-1\right)S{2n}^2}{ {\sigma}_2^2}\sim\chi^2\left(m+n-2\right)$$;

    • $$\frac{\frac{\left(\overline{X}-\overline{Y}\right)-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{ {\sigma}_1^2}{m}+\frac{ {\sigma}2^2}{n} }} }{\sqrt{\frac{\frac{\left(m-1\right)S{1m}^2}{ {\sigma}1^2}+\frac{\left(n-1\right)S{2n}^2}{ {\sigma}_2^2} }{m+n-2} }}\sim t\left(m+n-2\right)$$,

      $$\frac{\left(\overline{X}-\overline{Y}\right)-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{\left(m-1\right)S_{1m}^2+\left(n-1\right)S_{2n}^2}{m+n-2} }\sqrt{\frac{1}{m}+\frac{1}{n} }}\sim t\left(m+n-2\right),\sigma_1=\sigma_2$$;

    • $$\frac{S_{1m}^2}{S_{2n}^2}\frac{\sigma_2^2}{\sigma_1^2}\sim F\left(m-1,n-1\right)$$.

参数估计

点估计

  • 问题的提法

    设总体 $$X$$ 的分布函数 $$F\left(x;\theta\right)$$ 的形式为已知,$$\theta$$ 为待估参数,$$X_1,X_2,\cdots,X_n$$ 为 $$X$$ 的一个样本,$$x_!,x_2,\cdots,x_n$$ 为相应的一个样本值

    点估计问题及为构造一个统计量 $$\hat{\theta}\left(X_1,X_2,\cdots,X_n\right)$$,用它的观察值 $$\hat{\theta}\left(x_1,x_2,\cdots,x_n\right)$$ 来估计未知参数 $$\theta$$,称 $$\hat{\theta}\left(X_1,X_2,\cdots,X_n\right)$$$$\theta$$ 的估计量,$$\hat{\theta}\left(x_1,x_2,\cdots,x_n\right)$$ 为 $$\theta$$ 的估计值

  • 矩估计法

    设总体 $$X$$ 的分布函数为 $$F\left(x;\theta_1,\theta_2,\cdots,\theta_k\right)$$,称 $$\left{\begin{array}{lr} \alpha_r\left(\theta_1,\theta_2,\cdots,\theta_k\right)=EX^r=A_r=\frac{1}{n}\sum_\limits{i=1}^{n}{X_i^r}\ r=1,2,\cdots,k \end{array} \right.$$ 的解 $$\hat{\theta}\left(X_1,X_2,\cdots,X_n\right)$$$$\hat{\theta}\left(x_1,x_2,\cdots,x_n\right)$$ 的矩估计量

    • 样本原点矩依概率收敛于相应的总体原点矩, 而样本矩的连续函数依概率收敛于相应的总体矩的连续函数,所以所有的矩估计都有依概率收敛这一性质(相合性)
  • 极大似然估计法

    总体 $$X\sim f\left(x;\theta_1,\theta_2,\cdots,\theta_k\right)$$,$$L\left(\theta_1,\theta_2,\cdots,\theta_k\right)=\prod_\limits{i=1}^{n}{f\left(x;\theta_1,\theta_2,\cdots,\theta_k\right)}$$ 称为参数 $$\left(\theta_1,\theta_2,\cdots,\theta_k\right)$$ 的似然函数

    • 若似然函数 $$L\left(\theta_1,\theta_2,\cdots,\theta_k\right)$$$$\hat{\theta_i}\left(x_1,x_2,\cdots,x_n\right)$$ 处取最大值,则称 $$\hat{\theta_i}$$$$\theta_i$$ 的极大似然估计值,$$\hat{\theta_i}\left(X_1,X_2,\cdots,X_n\right)$$ 为参数 $$\theta_i$$ 的极大似然估计量

    • 求解方法:

      • 求解对数似然方程 $$\frac{\partial\ln{L\left(\theta_1,\theta_2,\cdots,\theta_k\right)} }{\partial\theta_i}=0\left(i=1,2,\cdots,k\right)$$,若驻点唯一,即为极大似然估计

      • 根据定义计算

    • $$\theta$$ 的函数 $$u=u\left(\theta\right),\theta\in\Theta$$ 具有单值反函数 $$\theta=\theta\left(u\right),u\in\mu$$,且 $$\hat{\theta}$$ 是参数 $$\theta$$ 的极大似然估计,则 $$\hat{u}=u\left(\hat{\theta}\right)$$$$u\left(\theta\right)$$ 的极大似然估计

估计量的评选标准

  • 无偏性

    若估计量 $$\hat{\theta}=\hat{\theta}\left(X_1,X_2,\cdots,X_n\right)$$ 的数学期望 $$E\left(\hat{\theta}\right)$$ 存在,且 $$\forall\theta\in\Theta,E\left(\hat{\theta}\right)=\theta$$,则称 $$\hat{\theta}$$$$\theta$$ 的无偏估计量

    $$\lim_\limits{n\rightarrow\infty}{E\hat{\theta} }=\theta$$,则称 $$\hat{\theta}$$$$\theta$$ 的渐近无偏估计

  • 有效性

    $$E\hat{\theta}_1=E\hat{\theta}_2=\theta$$,若有 $$D\left(\hat{\theta}_1\right)\leq D\left(\hat{\theta}_2\right)$$,则称 $$\hat{\theta}_1$$$$\hat{\theta}_2$$ 有效

    所有无偏估计中方差最小的无偏估计称为最小方差无偏估计,或称为有效估计

    • 总体 $$X\sim f\left(x;\theta\right)$$,若 $$E\hat{\theta}=\theta$$,则 $$D\left(\hat{\theta}\right)\geq \frac{1}{nI\left(\theta\right)}$$(G-R下界),其中Fisher信息数 $$I\left(\theta\right)=E{\left[\frac{\partial}{\partial\theta}\ln{f\left(X,\theta\right)}\right]}^2$$

    $$D\left(\hat{\theta}\right)=\frac{1}{nI\left(\theta\right)}$$,则称 $$\hat{\theta}$$$$\theta$$ 的有效估计

    $$\lim_\limits{n\rightarrow\infty}\frac{\frac{1}{nI\left(\theta\right)} }{D\left(\hat{\theta}\right)}=1$$,则称 $$\hat{\theta}$$$$\theta$$ 的渐近有效估计

  • 相合性(一致估计)

    $$\hat{\theta}\left(X_1,X_2,\cdots,X_n\right)\stackrel{P}{\longrightarrow}\theta$$,即 $$\forall\varepsilon>0,\lim_\limits{n\rightarrow\infty}{P\left(\lvert \hat{\theta}-\theta\rvert \geq\varepsilon\right)}=0$$,则称 $$\hat{\theta}$$$$\theta$$ 的相合估计量

    • 所有的矩估计都是相合估计

    $$\lim_\limits{n\rightarrow\infty}{D\hat{\theta} }=0,\lim_\limits{n\rightarrow\infty}{b\left(\theta\right)}=\lim_\limits{n\rightarrow\infty}{\left(E\hat{\theta}-\theta\right)}=0$$,则 $$\hat{\theta}$$$$\theta$$ 的相合估计量

    $$D\overline{X}=\frac{1}{n}DX$$

区间估计

  • 定义

    设总体 $$X\sim f\left(x;\theta\right)$$,其中 $$\theta$$ 未知,若对于给定的 $$0<\alpha<1$$,统计量 $$\hat{\theta}_1=\hat{\theta}_1\left(X_1,\cdots,X_n\right)$$$$\hat{\theta}_2=\hat{\theta}_2\left(X_1,\cdots,X_n\right)$$ 满足 $$P\left(\hat{\theta}_1<\theta<\hat{\theta}_2\right)=1-\alpha$$,则称随即区间 $$\left(\hat{\theta}_1,\hat{\theta}_2\right)$$$$\theta$$ 的置信度为 $$1-\alpha$$ 的置信区间,$$\hat{\theta}_1$$ 和 $$\hat{\theta}_2$$ 分别称为置信度为 $$1-\alpha$$ 的置信上限和置信下限,$$1-\alpha$$ 称为置信度或置信水平

    • 置信区间不唯一
    • 置信区间长度越短,估计越精确,所以一般我们是对称的取,此时的置信区间长度最短
  • 求置信区间(枢轴量法)

    1. 设法构造一个随机变量 $$Z=Z\left(X_1,X_2,\cdots,X_n;\theta\right)$$,除参数外,$$Z$$ 不包含其他任何未知参数,$$Z$$ 的分布已知或可求出,并且不依赖于参数 $$q$$,也不依赖于其他任何未知参数($$Z$$ 即称为枢轴量)

    2. 对于给定的置信度 $$1-\alpha$$,求出 $$a,b$$,使得 $$P\left{a<Z\left(X_1,\cdots,X_n;\theta\right)<b\right}=1-\alpha$$

    3. 由不等式 $$a<Z\left(X_1,\cdots,X_n;\theta\right)<b$$ 解得 $$\hat{\theta}_1\left(X_1,\cdots,X_n\right)<\theta<\hat{\theta}_2\left(X_1,\cdots,X_n\right)$$,即 $$P\left(\hat{\theta}_1<\theta<\hat{\theta}_2\right)=1-\alpha$$

正态总体参数的区间估计

  • 单个正态总体参数的区间估计

    总体 $$X\sim N\left(\mu,{\sigma}^2\right)$$

    被估参数 条件 选用统计量 分布 $$1-\alpha$$ 的置信区间
    $$\mu$$ $${\sigma}^2$$ 已知 $$U=\frac{\overline{X}-\mu}{\sigma}\sqrt{n}$$ $$N\left(0,1\right)$$ $$\left[\overline{X}-\frac{\sigma}{\sqrt{n} }u_{\frac{\alpha}{2} },\overline{X}+\frac{\sigma}{\sqrt{n} }u_{\frac{\alpha}{2} }\right]$$
    $$\mu$$ $${\sigma}^2$$ 未知 $$T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n} }}$$ $$t\left(n-1\right)$$ $$\left[\overline{X}-\frac{S}{\sqrt{n} }t_{\frac{\alpha}{2} },\overline{X}+\frac{S}{\sqrt{n} }t_{\frac{\alpha}{2} }\right]$$
    $${\sigma}^2$$ $$\mu$$ 未知 $${\chi}^2=\frac{\left(n-1\right)S^2}{ {\sigma}^2}$$ $${\chi}^2\left(n-1\right)$$ $$\left[\frac{\left(n-1\right)S^2}{ {\chi}^2_{\frac{\alpha}{2} }\left(n-1\right)},\frac{\left(n-1\right)S^2}{ {\chi}^2_{1-\frac{\alpha}{2} }\left(n-1\right)}\right]$$
    • $$g\left(x\right)$$ 单调增,则

      $$P\left(\hat{\theta}_1<\theta<\hat{\theta}_2\right)=1-\alpha\Longrightarrow P\left(g\left(\hat{\theta}_1\right)<g\left(\theta\right)<g\left(\hat{\theta}_2\right)\right)=1-\alpha$$

      $$g\left(x\right)$$ 单调减,则

      $$P\left(\hat{\theta}_1<\theta<\hat{\theta}_2\right)=1-\alpha\Longrightarrow P\left(g\left(\hat{\theta}_2\right)<g\left(\theta\right)<g\left(\hat{\theta}_1\right)\right)=1-\alpha$$

  • 两个正态总体的区间估计

$$N\sim N\left(\mu_1,\sigma_1^2\right),Y\sim\left(\mu_2,\sigma_2^2\right)$$ 相互独立

参数 条件 $$1-\alpha$$ 的置信区间
$$\mu_1-\mu_2$$ $$\sigma_1^2,\sigma_2^2$$已知 $$\left[\overline{X}-\overline{Y}-u_{\frac{\alpha}{2} }\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n} },\overline{X}-\overline{Y}+u_{\frac{\alpha}{2} }\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n} }\right]$$
$$\mu_1-\mu_2$$ $$\sigma_1=\sigma_2=\sigma$$未知 $$\left[\overline{X}-\overline{Y}-t_{\frac{\alpha}{2} }S_{\varpi}\sqrt{\frac{1}{m}+\frac{1}{n} },\overline{X}-\overline{Y}+t_{\frac{\alpha}{2} }S_{\varpi}\sqrt{\frac{1}{m}+\frac{1}{n} }\right]$$
$$\frac{\sigma_1^2}{\sigma_2^2}$$ $$\mu_1,\mu_2$$未知 $$\left[\frac{S_1^2}{S_2^2}\cdot \frac{1}{F_{\frac{\alpha}{2} }\left(m-1,n-1\right)},\frac{S_1^2}{S_2^2}\cdot \frac{1}{F_{1-\frac{\alpha}{2} }\left(m-1,n-1\right)}\right]$$

假设检验

基本概念

  • 基本思想

    • 假设某个结论成立

    • 小概率事件在一次抽样过程中发生了/一次抽样中没有发生小概率事件

    • 认为原假设不成立/接受原假设

  • 一般步骤

    • 根据实际问题提出原假设 $$H_0$$ 及备择假设$$H_1$$

    • 选择适当统计量,在 $$H_0$$ 条件下决定统计量分布

    • 对给定的显著性水平 $$0<\alpha<1$$,根据 $$P\left(\left(X_1,X_2,\cdots,X_n\right)\in S\mid H_0\right)=\alpha$$ 确定拒绝域 $$S$$

    • 一旦得到一组样本观察值 $$\left(x_1,x_2,\cdots,x_n\right)$$,若 $$\left(x_1,x_2,\cdots,x_n\right)\in S$$,则拒绝 $$H_0$$,否则接受 $$H_0$$

  • 假设检验的两类错误

    • 第一类错误:如果原假设$$H_0$$成立,而观察值落入拒绝域,从而作出拒绝$$H_0$$的结论,称作第一类错误,又称弃真的错误。由定义知,显著性水平 $$\alpha$$ 恰好是犯第一类错误的概率

    • 第二类错误:如果原假设$$H_0$$不成立 , 而观察值却落入接受域,从而作出接受 $$H_0$$ 的结论,称作第二类错误,又称取伪的错误,通常记作 $$\beta$$

    一般按照控制犯第一类错误的原则进行检验而不考虑犯第二类错误(保护原假设的原则),这种检验问题 称为显著性检验问题

单个正态总体参数的检验

总体 $$X\sim N\left(\mu,\sigma^2\right)$$,$$\left(X_1,\cdots,X_n\right)$$ 是一组样本

  • $$\sigma^2$$ 已知,检验 $$\mu$$

    • $$H_0:\mu=\mu_0,H_1:\mu\neq\mu_0$$,双边检验

      • 假设 $$H_0$$ 成立

      • $$\mu=\mu_0$$ 时,统计量 $$U=\frac{\overline{X}-\mu}{\sigma}\sqrt{n}\sim N\left(0,1\right)$$ 分布已知

      • $$P\left(\lvert \frac{\overline{X}-\mu}{\sigma}\sqrt{n}\rvert \geq k\mid H_0\right)\leq \alpha$$,满足该不等式则为 $$H_0$$ 的拒绝域

      • $$k=u_{\frac{\alpha}{2} }$$,最大允许拒绝域为 $$S=\left{\left(x_1,\cdots,x_n\right)\mid \lvert \frac{\overline{X}-\mu_0}{\sigma}\sqrt{n}\rvert \geq u_{\frac{\alpha}{2} }\right}$$

    • $$H_0:\mu\leq\mu_0,H_1:\mu>\mu_0$$,单边右检验

      • 假设 $$H_0$$ 成立

      • $$\mu\leq\mu_0$$ 时,统计量 $$U=\frac{\overline{X}-\mu}{\sigma}\sqrt{n}\sim N\left(\frac{\mu-\mu_0}{\sigma}\sqrt{n},1\right)$$ 分布已知

      • $$P\left(\frac{\overline{X}-\mu_0}{\sigma}\sqrt{n}\geq k\mid H_0\right)=P\left(\frac{\overline{X}-\mu}{\sigma}\sqrt{n}\geq k-\frac{\mu-\mu_0}{\sigma}\sqrt{n}\mid H_0\right)\leq P\left(\frac{\overline{X}-\mu}{\sigma}\sqrt{n}\geq k\mid H_0\right)\leq \alpha$$,满足该不等式则为 $$H_0$$ 的拒绝域

      • $$k=u_{\alpha}$$,最大允许拒绝域为 $$S=\left{\left(x_1,\cdots,x_n\right)\mid \lvert \frac{\overline{X}-\mu_0}{\sigma}\sqrt{n}\rvert \geq u_{\alpha}\right}$$

    $$H_0$$ $$H_0$$ 真时统计量的分布
    $$\mu=\mu_0$$ $$U=\frac{\overline{X}-\mu_0}{\sigma}\sqrt{n}\sim N\left(0,1\right)$$
    $$H_1$$ 拒绝 $$H_0$$ 的区域
    $$\mu\neq\mu_0$$ $$\lvert U\rvert \geq u_{\frac{\alpha}{2} }$$
    $$\mu>\mu_0$$ $$U\geq u_{\alpha}$$
    $$\mu<\mu_0$$ $$U\leq-u_{\alpha}$$
  • $$\sigma^2$$ 未知,检验 $$\mu$$

    $$H_0$$ $$H_0$$ 真时统计量的分布
    $$\mu=\mu_0$$ $$T=\frac{\overline{X}-\mu_0}{S}\sqrt{n}\sim t\left(n-1\right)$$
    $$H_1$$ 拒绝 $$H_0$$ 的区域
    $$\mu\neq\mu_0$$ $$\lvert T\rvert \geq t_{\frac{\alpha}{2} }\left(n-1\right)$$
    $$\mu>\mu_0$$ $$T\geq t_{\alpha}\left(n-1\right)$$
    $$\mu<\mu_0$$ $$T\leq-t_{\alpha}\left(n-1\right)$$
  • $$\mu$$ 已知,检验 $$\sigma^2$$

    $$H_0$$ $$H_0$$ 真时统计量的分布
    $$\sigma^2=\sigma_0^2$$ $$\chi^2=\frac{1}{\sigma_0^2}\sum_\limits{i-1}^{n}{ {\left(X_i-\mu\right)}^2}\sim \chi^2\left(n\right)$$
    $$H_1$$ 拒绝 $$H_0$$ 的区域
    $$\sigma^2=\sigma_0^2$$ $$\chi^2\leq\chi_{1-\frac{\alpha}{2} }^2,\chi^2\geq\chi_{\frac{\alpha}{2} }^2$$
    $$\sigma^2>\sigma_0^2$$ $$\chi^2\geq\chi_{\alpha}^2\left(n\right)$$
    $$\sigma^2<\sigma_0^2$$ $$\chi^2\leq\chi_{1-\alpha}^2\left(n\right)$$
  • $$\mu$$ 未知,检验 $$\sigma^2$$

    $$H_0$$ $$H_0$$ 真时统计量的分布
    $$\sigma^2=\sigma_0^2$$ $$\chi^2=\frac{\left(n-1\right)S^2}{\sigma_0^2}=\sum_\limits{i-1}^{n}{ {\left(\frac{X_i-\overline{X} }{\sigma_0}\right)}^2}\sim \chi^2\left(n-1\right)$$
    $$H_1$$ 拒绝 $$H_0$$ 的区域
    $$\sigma^2=\sigma_0^2$$ $$\chi^2\leq\chi_{1-\frac{\alpha}{2} }^2,\chi^2\geq\chi_{\frac{\alpha}{2} }^2$$
    $$\sigma^2>\sigma_0^2$$ $$\chi^2\geq\chi_{\alpha}^2\left(n-1\right)$$
    $$\sigma^2<\sigma_0^2$$ $$\chi^2\leq\chi_{1-\alpha}^2\left(n-1\right)$$