概率论与数理统计要点总结

本文是根据陈希儒版《概率论与数理统计》总结的干货。

相关知识需要大量的例子和证明来补充,笔者发现总结干货并不容易

一、事件的概率

第一章首先对概率论中使用的名词含义与生活中的相关名词含义进行了区分,小结如下:

  • 概率是某一时间发生的数量指标,介于\([0,1]\)之间;生活中我们常常提到发生什么事的概率,通常是我们的主观推断,不是一个科学的概念;

  • 事件是对某种情况的描述,而不是已发生的情况,是否发生取决于试验后的结果,这样强调的目的是为了避免在理解一些和事件的概率时,与条件概率产生理解上的混淆;事件一般有一个明确界定的试验,即有一个可以罗列出的总体,或者总体的一个范围,并且事件是其中一个可以确定的试验的结果;把单一的试验结果称为基本事件

  • 古典概率,是一种简单的概率模型,它假设全部试验结果是有限个的,且等可能成立的;另外还有几何概率,是古典概率到无限个试验结果的引申;

  • 概率的统计定义,就是通过大量多次的试验来使用频率去拟合概率,这不是概率的定义,而是一种估计方法,也可以作为假设检验的方法;

  • 概率的公理化定义(柯氏公理):基本事件的集合为\(\Omega\),考虑一个集类\(\mathcal{F}\),其元素由\(\Omega\)的子集组成(包括\(\empty\)\(\Omega\)自己),\(\mathcal{F}\)的每个元素\(A\)即称为事件,事件的概率\(P(A)\)满足三条公理:

    • \(0 \le P(A) \le 1\)
    • \(P(\Omega)=1\)\(P(\empty)=0\)
    • 加法公理:若干个互斥事件和的概率,等于各个事件的概率之和
  • 排列组合:

    • \(n\)个不同的物品取出\(r\)个的不同排列总数(\(1\le r \le n\)) \[ P_r^n=n(n-1)\dots(n-r+1) \]

    • \(n\)个不同物品取出\(r\)个的不同组合总数(\(1\le r \le n\)) \[ C_r^n=\left(\begin{array}{c} n\\r \end{array} \right) =P_r^n/r!=n!/(r!(n-r)!) \]

    • 组合数又是二项展开式的系数: \[ (a+b)^n=\sum_{i=0}^{n}\left(\begin{array}{c}n\\i\end{array}\right)a^ib^{n-i} \]

    • \(n\)个不同物品分成\(k\)堆,各堆物品数分别为\(r_1,\dots,r_k\)的分法(堆和堆是有序的): \[ n!/(r_1!\dots r_k!) \] 上式是多项展开式\((x_1+\dots+x_k)^n\)\(x_1^{r_1}\dots x_k^{r_k}\)的系数

  • 按照上述事件的公理化定义,事件本身就是集合,一些集合中的关系可以引申到事件中的关系来,包括蕴含、包含、相等、互斥(不交)、对立(补)、和(并)、积(交)、差等,比较简单,按下不表;

  • 条件概率,在\(B\)发生下\(A\)发生的概率,\(P(A|B)=P(AB)/P(B)\)

  • 事件\(A\)\(B\)是独立的,当且仅当\(P(AB)=P(A)P(B)\),这也是概率的乘法定理,进而可以推广到多个事件互相独立:设\(A_1,A_2,\dots\)为有限或者无限的时间,如果从其中任意取出有限个事件,都满足事件积的概率等于事件概率的积,则这些时间相互独立;相互独立可以推出两两独立,但是两两独立不一定相互独立

    就向判断一堆列向量线性无关一样,两两线性无关也不能保证总体线性无关

  • 全概率公式:设\(B_1,B_2,\dots\)为有限个或无限个事件,两两互斥,每次试验中至少发生一个,则 \[ \begin{aligned} P(A)&=P(AB_1)+P(AB_2)+\dots\\ &=P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+\dots \end{aligned} \]

  • 贝叶斯公式\(P(B_i|A)=P(AB_i)/P(A)=P(B_i)P(A|B_i)/\sum_jP(B_j)P(A|B_j)\)

    贝叶斯公式看起来就是移了个项,但是解释起来就牛逼多了:

    \(B_1,B_2,\dots\)看成原因,把\(A\)看成结果,全概率公式计算在不同原因下的加权概率和,由因及果,而贝叶斯公式计算在已知结果发生下,是哪个原因导致该结果的概率;

    人们原来对事件\(B_i\)的发生有一个经验概率(先验)\(P(B_i)\),现在事件\(A\)发生了,那么我们使用贝叶斯公式,得到了\(B_i\)发生的新的概率(后验)\(P(B_i|A)\)

二、随机变量及概率分布

随机变量的概念比随机实践的概念更广,更利于研究,比如之前抛硬币,有两个基本事件,现在可以记为一个变量,有两种取值,每种值有一定的概率;

本章介绍了大量连续型概率分布和离散型概率分布的例子,说实话本人目前只在应用中接触过正态分布,对于大多数第一次在概率论课上接触的分布,想什么指数分布、泊松分布、\(t\)分布等等,在课后就没再见过,掌握的也不深;

  • 可以根据变量的取值特点分为离散型随机变量和连续型随机变量;

  • 分布函数,设\(X\)为一随机变量 \[ P(X\le x)=F(x), \ \ -\infty < x < \infty \] 该函数时单调非减的;并且在\(x\rightarrow -\infty\)时,\(F(x)\rightarrow 0\)\(x\rightarrow \infty\)时,\(F(x)\rightarrow 1\)

  • 二项分布:事件\(A\)单次发生的概率为\(p\),经过\(n\)次独立试验之后,\(A\)发生\(i\)次记为事件\(X\),记为\(X \thicksim B(n, p)\),概率为: \[ P(X=i)=b(i;n,p)=\left(\begin{array}{c}n\\i\end{array}\right)p^i(1-p)^{n-i}, i=0,1,\dots, n \]

  • 泊松分布:二项分布的极限形式,当\(n\)很大,\(p\)很小而\(np=\lambda\)不太大时,\(X\thicksim P(\lambda)\),概率为: \[ P(X=i) = e^{-\lambda}\lambda^i/i! \]

  • 超几何分布\(X\)为从\(N\)个商品中,随机抽出\(n\)个里面包含的废品数(总废品数\(M\)),与二项分布的差别是,这是不放回抽样: \[ P(X=m)= \left( \begin{array}{} M\\m \end{array} \right) \left( \begin{array}{} N-M\\n-m \end{array} \right) / \left( \begin{array}{} N\\n \end{array} \right) \]\(n\)固定,\(M/N=p\)固定,\(N\rightarrow \infty\)时,\(X\)近似服从二项分布\(B(n,p)\)

  • 负二项分布

  • 对于连续型随机分布,定义概率密度函数\(f(x)=F'(x)\)

    • \(f(x)\ge 0\)
    • \(\int_{-\infty}^{+\infty}f(x)dx = 1\)
    • \(P(a \le x \le b) = F(b) - F(a) = \int_{a}^{b}f(x)dx\)
  • 正态分布\(X \sim N(\mu, \sigma)\) \[ f(x) = (\sqrt{2\pi}\sigma)^{-1}e^{-(x-\mu)^2/2\sigma^2}, -\infty < x < \infty \] \(N(0,1)\)为标准正态分布

  • 指数分布:其中\(\lambda>0\) \[ f(x) = \left\{ \begin{array}{rc} \lambda e^{-\lambda x},&x>0\\ 0,&x\le 0 \end{array} \right. \]

    \[ F(x) = \left\{ \begin{array}{rc} 0,&x\le 0\\ 1 - e^{-\lambda x},&x>0\\ \end{array} \right. \]

    原件寿命的分布,\(\lambda\)为失效率,\(\lambda^{-1}\)即平均寿命

  • 韦伯分布

  • 均匀分布

以下是多维随机变量分布:

  • 多项分布

  • 二维正态分布\[ f(x_1,x_2)=(2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}\exp(-\frac{1}{2(1-\rho^2)}\left(\frac{(x_1-a)^2}{\sigma_1^2}-\frac{2\rho(x_1-a)(x_2-b)}{\sigma_1\sigma_2}+\frac{(x_2-b)^2}{\sigma^2}\right)) \]

  • 边缘分布\(X=(X_1,\dots, X_n)\)是一个\(n\)维随机变量,其分布\(F\)为一个\(n\)维分布,对于\(X\)的每一个分量\(X_i\)其一维分布\(F_i\)即称为边缘分布;边缘分布也不一定是对于一个分量的一维分布;\(N(a,b,\sigma_1^2, \sigma_2^2, \rho)\)的两个边缘分布是\(N(a, \sigma_1^2)\)\(N(b,\sigma_2^2)\)

  • 条件分布

    离散型随机变量条件分布的概率密度很好写出,设\((X_1,X_2)\)是二维离散型随机变量,\(X_1\)的全部可能值为\(a_1, a_2,\dots\), \(X_2\)的全部可能值为\(b_1, b_2, \dots\),即联合概率分布 \[ p_{ij}=P(X_1=a_i, X_2=b_j), i,j = 1,2,\dots \] 则条件分布 \[ P(X_1=a_i|X_2=b_j)=p_{ij}/P(X_2=b_j)=p_{ij}/\sum_kp_{kj} \] 连续性随机变量的条件分布也有比较直观的结论(推导过程稍微复杂): \[ f(x_1,x_2)=f_2(x_2)f_1(x_1|x_2) \] 将上式两边对\(x_2\)积分,有 \[ f_1(x_1)=\int_{-\infty}^{+\infty}f_1(x_1|x_2)f_2(x_2) \] 解释为\(X_1\)的无条件密度,是\(X_1\)\(X_2\)条件按\(X_2\)密度的加权平均,这也是全概率公式的概率密度的表现形式;

    对弈二维正态分布\(N(a,b,\sigma_1^2, \sigma_2^2, \rho)\),其\(X=x_1\)条件下,\(X_2\)满足\(N(b+\rho\sigma_2\sigma_1^{-1}(x_1-a), \sigma^2_2(1-\rho^2))\)分布,可以定性的看出\(\rho>0\),随着\(X_1\)增加,\(X_2\)数据中心也增加,这称为正相关,反之,\(\rho<0\)有负相关;

  • 随机变量的独立性,当且仅当 \[ f(x_1, \dots, x_n)=f(x_1)\dots f(x_n) \]

  • 随机变量函数的分布,研究这个问题的目的是,为了知道观测变量的统计量(例如均值、方差)的分布;

    \(X\)有密度函数\(f(x)\),设\(Y=g(X)\)\(g\)严格单调,反函数\(h=g^{-1}\)是可导的,则\(Y\)的概率密度函数为 \[ l(y)=f(h(y))|h'(y)| \]\((X_1,X_2)\)的密度函数为\(f(x_1, x_2)\)\(Y_1=g_1(X_1,X_2)\)\(Y_2=g_2(X_1, X_2)\),设\(g_1,g_2\)是一一变换,有\(X_1=h_1(Y_1,Y_2)\)\(X_2=h_2(Y_1,Y_2)\),均有一阶连续偏导,雅克比行列式\(J(y_1,y_2)\)不为0,则 \[ l(y_1,y_2)=f(h_1(y_1,y_2),h_2(y_1, y_2))|J(y_1,y_2)| \]

三、随机变量的数字特征

  • 期望

    \(X\)若为离散型随机变量,取\(a_1, a_2,\dots\),对应的概率为\(p_1,p_2,\dots\),则期望 \[ E(X)=\sum_{i=1}^{\infty}a_ip_i \] 其中,该级数必须绝对收敛,才存在期望;

    \(X\)若为连续型随机变量,密度函数为\(f(x)\),则 \[ E(x) = \int_{-\infty}^{+\infty}xf(x)dx \] 同样要求\(\int_{-\infty}^{+\infty}|x|f(x)dx < \infty\)

  • 期望有如下性质:

    • \(E(X_1+\dots+X_n)=E(X_1)+\dots+E(X_n)\)
    • \(X_1,X_n\)独立,则\(E(X_1\dots X_n)=E(X_1)\dots E(X_n)\)

    计算随机变量函数的期望,不需要知道函数的分布: \[ E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)dx \]

  • 条件期望\(E(Y|X=x)=E(Y|x)=\int_{-\infty}^{+\infty}yf(y|x)dy\)

    全概率公式的期望形式: \[ E(Y)=\int_{-\infty}^{+\infty}E(Y|x)f_1(x)dx=E[E(Y|x)] \]

  • 方差\[ \text{Var}(X)=E(X-EX)^2=E(X^2)-(EX)^2 \]

    • \(\text{Var}(CX)=C^2\text{Var}(X)\)
    • \(\text{Var}(C+X)=\text{Var}(X)\)
    • \(\text{Var}(aX+bY)=a^2\text{Var}(X) + b^2\text{Var}(Y)+2ab\text{Cov}(X,Y)\)
  • :设\(X\)为随机变量,\(c\)为常数,\(k\)为正整数,则\(E[(X-c)^k]\)称为\(X\)关于\(c\)点的\(k\)阶矩,其中在\(c=0\)时称为原点矩,\(c=EX\)时称为中心矩;

  • 协方差\(\text{Cov}(X,Y)=E[(X-m_1)(Y-m_2)]\),其中\(m_1,m_2\)表示\(X,Y\)的期望

    • \(\text{Cov}(c_1X+c_2,c_3Y+c_4)=c_1c_3\text{Cov}(X,Y)\)
    • \(\text{Cov}(X,Y)=E(XY)-m_1m_2\)
    • \(X,Y\)独立,则\(\text{Cov}(X,Y)=0\)
    • \([\text{Cov}(X,Y)]^2\le \sigma_1^2\sigma_2^2\)
  • 相关系数\(\text{Corr}(X,Y)=\text{Cov}(X,Y)/(\sigma_1\sigma_2)\),可以视为标准尺度下(方差为1)的协方差

    • \(X,Y\)独立,则\(\text{Corr}(X,Y)=0\),但是反之不成立
    • \(|\text{Corr}(X, Y)|=0\)
    • \(|\text{Corr}(X,Y)|\le 1\),线性关系越强,相关系数越大
  • 最小二乘:选择常数\(a,b\)使得\(E[(Y-a-bX)^2]\)最小:

    \(m_1=EX,m_2=EY,\sigma_1^2=\text{Var}(X),\sigma_2^2=\text{Var}(Y),\rho=\text{Corr}(X,Y),c=a-(m_2-bm_1)\)\[ \begin{aligned} E[(Y-a-bX)^2]&=E[(Y-m_2)-b(X-m_1)-c]^2\\ &=\sigma_2^2 + b^2\sigma_1^2 -2b\text{Cov}(X,Y) + c^2 \end{aligned} \]\(c=0,b=\text{Cov}(X,Y)/\sigma_1^2=\sigma_1^{-1}\sigma_2\rho\)得到线性逼近: \[ L(X)=m_2 - \sigma_1^{-1}\sigma_2\rho m_1 + \sigma_1^{-1}\sigma_2\rho X \] 这一逼近的剩余是: \[ E[Y-L(X)]^2=\sigma_2^2(1-\rho^2) \] 可以看出当\(|\rho|=1\)时,完美的线性关系,而\(\rho=0\)时,剩余为\(\sigma_2\),毫无线性关系(可能满足其他的非线性关系);

    • \((X,Y)\)为二维正态,则任何函数\(M(X)\),以\(E[Y-M(X)]^2\)最小化为目标都可以得到上述的\(L(X)\)
    • \((X,Y)\)为二维正态,则\(\rho=0\)可以推出\(X,Y\)独立
  • 大数定理:(独立同分布的)\(\overline{X}\)依概率收敛到\(EX\)

  • 马尔科夫不等式:若\(Y\)为只取非负值的随机变量,则对于任意的常数\(\epsilon > 0\)\(P(Y>\epsilon)\le EY/\epsilon\)

  • 车比雪夫不等式:用\((Y-EY)^2\)代替\(Y\)\(\epsilon^2\)代替\(\epsilon\),得到:若\(\text{Var}(Y)\)存在,则: \[ P(|Y-EY|\ge\epsilon)\le \text{Var}(X)/\epsilon^2 \]

  • 中心极限定理:(独立同分布的)随机变量的和的分布收敛于正态分布;

四、参数估计

在有限总体的情况下,样本的分布取决于总体分布和抽样方式(有放回还是无放回);对于无限总体或者有放回抽样,总体分布完全决定样本分布;

统计量是指完全由样本决定的量;样本均值、样本矩与随机变量的均值和矩的形式一样;但是要注意样本方差\(S^2=\frac{n}{n-1}m^2\)\(m^2\)是样本的二阶中心矩;

参数估计可以分为点估计和区间估计;点估计即用一个点(值)去估计参数,区间估计则是用一个区间去估计参数,相当于把误差范围显式地表示出来了;

矩估计

设总体分布为\(f(x,\theta_1,\dots,\theta_k)\),基本思想是让一系列的样本矩(原点矩或中心距都行)\(a_m\)等于对应的随机变量矩\(\alpha_m\);以原点矩为例,一边有 \[ \alpha_m=\int_{-\infty}^{\infty}x^mf(x,\theta_1,\dots,\theta_k)dx \] 另一边有: \[ a_m=\sum_{i=1}^nX_i^m/n \] 列出\(k\)个方程求解参数\(\theta_1,\dots,\theta_k\)

极大似然估计

设总体分布为\(f(X;\theta_1,\dots,\theta_k)\)\(X_1,\dots,X_n\)为样本,则样本的密度函数为 \[ L(X_1,\dots,X_n;\theta_1,\dots,\theta_k)=f(X_1;\theta_1,\dots,\theta_k)\dots f(X_n;\theta_1,\dots,\theta_k) \] 上式子\(X_1,\dots,X_n\)固定,把\(L\)看做\(\theta_1,\dots,\theta_k\)的参数,即称为似然函数;想法就是使用使得似然函数最大的点作为参数的估计值: \[ L(X_1,\dots,X_n;\theta_1^*,\dots,\theta_k^*)=\max_{\theta_1,\dots,\theta_k}L(X_1,\dots,X_n;\theta_1,\dots,\theta_k) \] 合适时,可以使用一阶导为0或者对数的一阶导为0求得极大值点;

贝叶斯估计

上面两种方法,在抽样之前,对于参数\(\theta\)没有任何的了解,所有信息来自于样本;贝叶斯学派认为应该对于\(\theta\)有某种先验知识,并且以\(\theta\)的某种概率密度表现出来\(h(\theta)\)

设总体有概率密度\(f(X,\theta)\)\(X_1,\dots,X_n\)为样本,则\((\theta, X_1, \dots, X_n)\)的联合密度为: \[ h(\theta)f(X_1,\theta)\dots f(X_n,\theta) \] \((X_1,\dots,X_n)\)的边缘密度为 \[ p(X_1,\dots,X_n)=\int h(\theta)f(X_1,\theta)\dots f(X_n,\theta) d\theta \]

积分的限取决于参数

后验/\(\theta\)的条件密度为: \[ h(\theta|X_1,\dots,X_n)=h(\theta)f(X_1,\theta)\dots f(X_n,\theta)/p(X_1,\dots,X_n) \] 后验分布如何使用不是一个固定的事情;一种常见的做法是,取后验分布的均值作为\(\theta\)的估计

广义的先验密度\(h(\theta)\)不一定满足积分为1,甚至可能是\(\infty\)

初始化的\(h(x)\)可以基于“同等无知”原则,即均匀分布;基于这个原则,不同的人可能得到不同的初始化结果,例如对\(p\)同等无知,我们令\(h(p)=1, 0\le p\le 1\);同样的对\(p^2\)也同等无知,我们令\(h(p^2)=1, 0\le p\le1\)又得到\(h(p)=2p,0\le p \le 1\)

点估计的优良性准则

如何比较上述几种点估计方法?这取决于抽样。不同的样本,一种估计方法可能很好,也可能不太好;我们希望有整体上的评价方式;

无偏性:设\(\hat{g}(X_1,\dots, X_n)\)是一个估计量,如果对于任何可能的\(\theta_1,\dots,\theta_k\)都有 \[ E_{\theta_1,\dots,\theta_k}[\hat{g}(X_1,\dots,X_n)]=g(\theta_1,\dots,\theta_k) \] 则称\(\hat{g}\)\(g\)的一个无偏估计量;

无偏性体现了,尽管一部分样本估计偏低,另一部分估计偏高,可是将正负误差在概率上平均起来应该为0,即没有系统误差;

样本均值是总体均值的无偏估计: \[ E(\overline{X})=E(\sum_{i=1}^nX_i/n)=\sum_{i=1}^nE(X_i)/n=n\theta/n=\theta \] 样本方差是总体方差的无偏估计,即\(E(X_i)=a\),由上可知也有\(E(\overline{X})=a\) \[ \begin{aligned} E(\sum_{i=1}^n(X_i-\overline{X})^2)&=E\sum_{i=1}^n[(X_i-a)-(\overline{X}-a)]^2\\ &=E(\sum_{i=1}^n(X_i-a)^2-n(\overline{X}-a)^2)\\ &=\sum_{i=1}^n\text{Var}(X_i)-n\text{Var}(\sum_{i=1}^nX_i/n)\\ &=n\sigma^2-n\sigma^2/n^2\\ &=(n-1)\sigma^2 \end{aligned} \] 因此样本方差是总体方差的无偏估计: \[ E(S^2)=E(\sum_{i=1}^n(X_i-\overline{X})^2/(n-1))=\sigma^2 \] 从自由度的角度解释,\(\sum_{i=0}^n(X_i-\overline{X})^2\)的自由度为\(n-1\),因为存在一个约束是\(\overline{X}=\sum_{i=1}^nX_i/n\);当我们知道总体分布的均值为\(a\)而不是使用样本均值时,对方差的估计可以表示为\(\sum_{i=1}^n(X_i-a)^2/n\)

下式表明,用\(S\)估计总体分布的标准差不是无偏估计!估计得要小一点; \[ \sigma^2=E(S^2)=\text{Var}(S)+(ES)^2 \] 矩估计和极大似然估计对正态分布的方差的估计求出的都是样本二阶中心矩,不是无偏的;

最小方差无偏估计(MVU):一个参数可能有多个无偏估计,需要一些指标来评价哪种估计更好;

  • 均方误差:\(M_{\hat{\theta}}(\theta)=E_{\theta}[\hat{\theta}(X_1,\dotsm,X_n)-\theta]^2\)

    \(M_{\hat{\theta}}(\theta)=\text{Var}(\hat{\theta})+[E_{\theta}(\hat{\theta})-\theta]^2\),由该式子,得到均方误差由估计的参数的方差和系统偏差组成,如果\(\hat{\theta}\)\(\theta\)的无偏估计,则第二项为0,即对于无偏估计,方差最小者最优;

    这里是有\(\text{Var}(\hat{\theta}-\theta)=\text{Var}(\hat{\theta})\)?把\(\theta\)当成常量了

之前的方法只能判断现有的无偏估计那个更好,却不能求出最小的无偏估计,可以使用克拉美-劳不等式确定下界,证明昝略:

只考虑单个参数的情况,记 \[ I(\theta)=\int\left[\left(\frac{\part f(x,\theta)}{\part \theta}\right)^2/f(x,\theta)\right]dx \]

积分的界取决于\(x\)可取的范围;\(I(\theta)\)又称费歇尔信息量

则有 \[ \text{Var}_{\theta}(\hat{g})\ge(g'(\theta))^2/(nI(\theta)) \] 其中\(n\)是样本大小;

信息量越大,方差的下界越小,估计越准

相合性:类似于大数定理,随着样本量的增加,估计量应该趋于真值: \[ \lim_{n\rightarrow \infty}P_{\theta_1,\dotsm,\theta_k}(|\hat{g}-g|\ge\epsilon) = 0 \] 则称\(\hat{g}\)\(g\)的相合估计;

渐进正态性:当\(n\)逐渐增大时,样本的和的分布趋近于正态分布;

区间估计

一方面,期望\(\theta\)落在区间\([\theta_1,\theta_2]\)的可靠性尽量高,另一方面\([\theta_1,\theta_2]\)的范围尽量小;这两个要求是矛盾的,通常先保证可靠度(给定置信系数求区间);

给定一个很小的数\(\alpha>0\),若\(P_\theta(\hat{\theta_1}\le\theta\le\hat{\theta_2})=1-\alpha\),则称区间估计\([\theta_1,\theta_2]\)的置信系数为\(1-\alpha\)

这里只讨论如何构造置信区间,但是其优良性比较暂不考虑;

定义\(\beta\)分位点\(u_\beta\)为满足\(F(u_\beta)=1-\beta\)的位置;

枢轴法(正态分布区间估计为例):

  1. 找到与估计的参数\(g(\theta)\)有关的统计量\(T\),一般是其良好的点估计(例如\(T=\overline{X}\)
  2. 找到一个\(T与\)\(g(\theta)\)组成的函数\(S\),使得\(S\)的分布与带估计参数无关\(\theta\),例如\(\sqrt{n}(\overline{X}-\mu)/\sigma\)服从标准正态分布\(\Phi\)
  3. \(a\le S(T,g(\theta))\le b\)能够改写成\(A \le g(\theta) \le B\),令\(a=u_{1-\alpha/2}\)\(b=u_{\alpha/2}\),则\([A,B]\)即为所求的\(1-\alpha\)的置信区间