UA MATH566 统计理论用点估计构造置信区间

技术2022-07-10 173

UA MATH566 统计理论用点估计构造置信区间

用点估计构造置信区间

置信区间（confidential interval，CI）也叫区间估计，是另一种做统计推断的方法，和假设检验密切相关。统计量的质量一般用它的bias和variance来衡量，点估计的话不太能直观地表示这两个概念，所以又定义了区间估计 $\hat{C}(X) \subset \Theta$ ，定义 $P\{\theta \in \hat{C}(X)\}$

为covering probability。定义 $\hat{C}$ 是 $\gamma$ -level 置信区间，如果covering probability为 $\gamma$ 。记 $\hat{C}(X) = [\hat{\theta}_L(X),\hat{\theta}_U(X)]$ ，频率派统计认为真实的参数 $\theta$ 是一个只有造物主才知道的常数，区间估计中区间的端点是基于随机样本的统计量，因此这个区间是随机的，我们可以用频率的观点来解释covering probability，假设我们独立重复抽取了一百组样本，可以计算出一百个置信区间，那么这一百个里面大概就会有 $\gamma$ 个包含真实的参数 $\theta$ 。

用点估计构造置信区间

假设 $g$ 在参数空间上是一个单调变换，存在统计量 $h (X)$ 是 $g(\theta)$ 的无偏估计， $g(\theta)$ ，根据定义， $\theta$ 的 $\gamma$ 置信区间为 $P(\hat{\theta}_L \le \theta \le \hat{\theta}_U) = \gamma$

如果 $g(\theta)$ 是单增的变换，则 $P(g(\hat{\theta}_L) \le g(\theta) \le g(\hat{\theta}_U)) = \gamma$

如果 $g(\theta)$ 是单减的变换，则 $P(g(\hat{\theta}_U) \le g(\theta) \le g(\hat{\theta}_L)) = \gamma$

因为我们构造的统计量是 $g(\theta)$ 的无偏估计，可以根据 $h (X)$ 构造出 $h (X) + / - m (X)$ 使得 $\le g(\theta) \le h(X) + m(X)) = \gamma$

这里的构造方法通常是枢轴量法，可以参考UA MATH566 统计理论8 用Pivot构造置信区间。如果 $g(\theta)$ 是单增的变换，则令 $g(\hat{\theta}_L) = h(X) -m(X) \Rightarrow \hat{\theta}_L = g^{-1}( h(X) -m(X)) \\ g(\hat{\theta}_U) = h(X) +m(X) \Rightarrow \hat{\theta}_U = g^{-1}( h(X) +m(X))$

如果 $g(\theta)$ 是单减的变换，则令 $g(\hat{\theta}_L) = h(X) +m(X) \Rightarrow \hat{\theta}_L = g^{-1}( h(X) +m(X)) \\ g(\hat{\theta}_U) = h(X) -m(X) \Rightarrow \hat{\theta}_U = g^{-1}( h(X) -m(X))$

下面举例说明这套流程怎么操作：

例1 $\{X_i\}_{i=1}^n \sim_{iid} EXP(\lambda)$ ，求 $\lambda$ 的 $1-\alpha$ 置信区间先写出样本的联合概率密度 $f(x_1,\cdots,x_n|\lambda) = \frac{1}{\lambda^n} e^{-1/\lambda\sum_{i=1}^n X_i}$

根据Neyman-Fisher定理， $\sum_{i=1}^n X_i$ 是充分统计量。样本的对数似然为 $l(\lambda) = -n\log \lambda - \frac{1}{\lambda}\sum_{i=1}^n X_i = 0 \\ l'(\lambda) = -\frac{n}{\lambda} + \frac{1}{\lambda^2}\sum_{i=1}^n X_i = 0 \Rightarrow \hat{\lambda} = \bar{X}$

$E[\bar{X}] = E[X_1] = \frac{1}{\lambda}$ ，说明 $\bar{X}$ 是 $1/\lambda$ 的无偏估计。这时对应的是单调递减的情况，这里的 $h (X)$ 就是 $\bar{X}$ ，我们尝试用 $\bar{X}$ 构造一个 $1/\lambda$ 的置信区间。根据gamma分布的可加性， $\sum_{i=1}^n X_i \sim \Gamma(n,\lambda)$ ，做一个尺度变换后， $\bar{X} \sim \Gamma(n,\lambda/n)$ ，构造枢轴量 $\frac{n\bar{X}}{2\lambda} \sim \chi^2_{2n}$

记 $\chi^2_{2n,\frac{\alpha}{2}}$ 和 $\chi^2_{2n,1-\frac{\alpha}{2}}$ 分别为 $\chi^2_{2n}$ 的 $\alpha/2,1-\alpha/2$ 分位点，则 $P(\chi^2_{2n,\frac{\alpha}{2}} \le Q \le \chi^2_{2n,1-\frac{\alpha}{2}}) = 1-\alpha$

由此可以解出 $P(\frac{n\bar{X}}{2\chi^2_{2n,1-\frac{\alpha}{2}}} \le \lambda \le \frac{n\bar{X}}{2\chi^2_{2n,\frac{\alpha}{2}}}) = 1-\alpha$

因此 $\lambda$ 的 $1-\alpha$ 置信区间为 $\{\lambda:\frac{n\bar{X}}{2\chi^2_{2n,1-\frac{\alpha}{2}}} \le \lambda \le \frac{n\bar{X}}{2\chi^2_{2n,\frac{\alpha}{2}}}\}$

例2 $\{X_i\}_{i=1}^n \sim_{iid} U(0,\theta)$ ，求 $\theta$ 的 $1-\alpha$ 置信区间写出样本的联合似然函数 $L(\theta) = \prod_{i=1}^n \frac{I( X_i\le \theta)}{\theta} = \frac{I(X_{(n)} \le \theta)}{\theta^n}$

根据Neyman-Fisher定理， $X_{(n)}$ 是充分统计量。如果根据 $X_{(n)}$ 构造置信区间的话，先分析一下它的分布， $P(X_{(n)} \le y) = P(\max X_i \le y) = \prod_{i=1}^n P(X_i \le y) = \frac{y^n}{\theta^n}$

构造枢轴量 $\frac{X_{(n)}}{\theta}$

则 $\le y) = P(X_{(n)} \le \theta y) = y^n,y \in [0,1]$ ， $Q$ 的 $\alpha/2$ 与 $1-\frac{\alpha}{2}$ 为 $\left( \frac{\alpha}{2}\right)^{1/n}$ 和 $\left(1- \frac{\alpha}{2}\right)^{1/n}$ ，即 $P(\left( \frac{\alpha}{2}\right)^{1/n} \le Q \le \left(1- \frac{\alpha}{2}\right)^{1/n}) = 1-\alpha$

所以 $P(\frac{X_{(n)}}{\left(1- \frac{\alpha}{2}\right)^{1/n}} \le \theta \le \frac{X_{(n)}}{\left(\frac{\alpha}{2}\right)^{1/n}} ) = 1-\alpha$

也可以用矩估计来构造置信区间， $\hat{\theta} = \frac{2}{n}\sum_{i=1}^n X_i$

这时构造的枢轴量是 $\frac{n\hat{\theta}}{2\theta}$

它服从参数为 $n$ 的Ising-Hall分布。

Processed: 0.011, SQL: 9

UA MATH566 统计理论 用点估计构造置信区间