参考书:《概率导论》,作者:Dimitri P. Bertsekas,John N. Tsitsiklis。 本系列博客为自学《概率导论》笔记。
思维导图
基本概念
对于样本空间中的每一个试验结果,都关联着一个特定的数。这种试验结果与数的对应关系形成随机变量。 我们将试验结果所对应的数称为随机变量的取值。
从数学上讲,随机变量是试验结果的实值函数。
与随机变量相关的主要概念: 在一个试验的概率模型之下:
随机变量是试验结果的实值函数;随机变量的函数定义了另一个随机变量;对于一个随机变量,我们可以定义一些平均值,例如均值和方差;可以在某事件或某随机事件的条件之下定义一个随机变量;存在一个随机变量与某事件或某随机变量相互独立的概念。 若一个随机变量的值域(随机变量的取值范围)为一个有限集合或最多为可数无限集合,则称这个随机变量为离散的。与离散随即变量相关的概念: 在一个试验的概率模型之下:
离散随机变量是试验结果的一个实值函数,但是它的取值范围只能是有限多个值或可数无限多个值;一个离散随机变量有一个分布列,它对于随机变量的每一个取值,给出一个概率;离散随机变量的函数也是一个离散随机变量,它的分布列可以从原来的随机变量的分布列得到。
分布列
离散随机变量的取值概率是随机变量的最重要的特征,我们用分布列表示这种特征,并且有
p
X
p_X
pX表示随机变量
X
X
X的分布列。设
x
x
x是随机变量
X
X
X的取值,则
X
X
X取值为
x
x
x的概率定义为事件
{
X
=
x
}
\lbrace{X=x}\rbrace
{X=x}的概率,即所有与
x
x
x对应的试验结果所组成的事件的概率,用
p
X
(
x
)
p_X(x)
pX(x)表示,即
p
X
(
x
)
=
P
(
{
X
=
x
}
)
.
p_X(x)=P(\lbrace{X=x}\rbrace).
pX(x)=P({X=x}).为了不引起混淆,我们用
P
(
X
=
x
)
P(X=x)
P(X=x)表示事件
{
X
=
x
}
\lbrace{X=x}\rbrace
{X=x}的概率。我们用大写字母表示随机变量,用小写字母表示实数。对于分布列,我们有
∑
x
p
X
(
x
)
=
1.
\sum_xp_X(x)=1.
x∑pX(x)=1.其中求和是对随机变量
X
X
X的一切可能的取值而来的。对于不同的
x
x
x,事件
{
X
=
x
}
\lbrace{X=x}\rbrace
{X=x}是互不相容的,并且对所有的
x
x
x,事件系列
{
X
=
x
}
\lbrace{X=x}\rbrace
{X=x}形成了样本空间的一个分割。利用类似原理可以证明,对于任意一个
X
X
X的可能值的集合
S
S
S,下式成立:
P
(
X
∈
S
)
=
∑
x
∈
S
p
X
(
x
)
.
P(X \in S)=\sum_{x \in S}p_X(x).
P(X∈S)=x∈S∑pX(x).随机变量
X
X
X的分布列的计算: 对每一个随机变量
X
X
X的值
x
x
x:
(1)找出与事件
{
X
=
x
}
\lbrace{X=x}\rbrace
{X=x}相对应的所有试验结果;(2)将相应的试验结果的概率相加得到
p
X
(
x
)
.
p_X(x).
pX(x).
伯努利随机变量
考虑抛掷一枚硬币。设正面向上的概率为
p
p
p,反面向上的概率为
1
−
p
1-p
1−p.伯努利随机变量在试验结果为正面向上时取值为1,在试验结果为反面向上时取值为0,即
X
=
{
0
,
若
反
面
向
上
1
,
若
正
面
向
上
X=\bigg\lbrace_{0,若反面向上}^{1,若正面向上}
X={0,若反面向上1,若正面向上伯努利(Bernoulli)随机变量的分布列为
p
X
(
k
)
=
{
1
−
p
,
若
k
=
0
p
,
若
k
=
1
p_X(k)=\bigg\lbrace_{1-p,若k=0}^{p,若k=1}
pX(k)={1−p,若k=0p,若k=1在实际中,伯努利随机变量用于刻画具有两个试验结果的概率模型。
二项随机变量
将一枚硬币抛掷
n
n
n次,每次抛掷,正面出现的概率为
p
p
p,反面出现的概率为
1
−
p
1-p
1−p,而且各次抛掷是相互独立的。令
X
X
X为
n
n
n次抛掷得到正面的次数。我们称
X
X
X为二项随机变量,其参数为
n
n
n和
p
p
p.
X
X
X的分布列是:
p
X
(
k
)
=
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
⋯
,
n
.
p_X(k)=P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},k=0,1,\cdots,n.
pX(k)=P(X=k)=(kn)pk(1−p)n−k,k=0,1,⋯,n.对于二项随机变量,利用归一化公理可以得到:
∑
k
=
0
n
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
1.
\sum_{k=0}^n\binom{n}{k}p^k(1-p)^{n-k}=1.
k=0∑n(kn)pk(1−p)n−k=1.
几何随机变量
在连续抛掷硬币的试验中,每次抛掷,正面出现的概率为
p
p
p,反面出现的概率为
1
−
p
1-p
1−p,而且各次抛掷是相互独立的。令
X
X
X为连续抛掷一枚硬币,直到第一次(第
k
k
k次)出现正面所需要抛掷的次数。
X
X
X就称为几何随机变量。前
k
−
1
k-1
k−1次抛掷的结果为反面向上,第
k
k
k次抛掷的结果为正面向上的概率为
(
1
−
p
)
k
−
1
p
.
(1-p)^{k-1}p.
(1−p)k−1p.因此,
X
X
X的分布列为:
p
X
(
k
)
=
(
1
−
p
)
k
−
1
p
,
k
=
1
,
2
,
⋯
.
p_X(k)=(1-p)^{k-1}p,k=1,2,\cdots.
pX(k)=(1−p)k−1p,k=1,2,⋯.归一化为:
∑
k
=
1
∞
p
X
(
k
)
=
∑
k
=
1
∞
(
1
−
p
)
k
−
1
p
=
p
∑
k
=
0
∞
(
1
−
p
)
k
=
p
1
1
−
(
1
−
p
)
=
1.
\sum_{k=1}^\infty p_X(k)=\sum_{k=1}^\infty (1-p)^{k-1}p=p\sum_{k=0}^\infty (1-p)^k=p \frac {1}{1-(1-p)}=1.
k=1∑∞pX(k)=k=1∑∞(1−p)k−1p=pk=0∑∞(1−p)k=p1−(1−p)1=1.
泊松随机变量
设随机变量
X
X
X分布列为
p
X
(
k
)
=
e
−
λ
λ
k
k
!
,
k
=
0
,
1
,
2
,
⋯
.
p_X(k)=e^{-\lambda}\frac {\lambda ^k}{k!},k=0,1,2,\cdots.
pX(k)=e−λk!λk,k=0,1,2,⋯.其中
λ
\lambda
λ是刻画分布列的取正值的参数,则称
X
X
X为泊松随机变量。 归一化为:
∑
k
=
0
∞
e
−
λ
λ
k
k
!
=
e
−
λ
(
1
+
λ
+
λ
2
2
!
+
⋯
)
=
e
−
λ
e
λ
=
1.
\sum_{k=0}^\infty e^{-\lambda}\frac {\lambda ^k}{k!}=e^{-\lambda}(1+\lambda+\frac {\lambda^2}{2!}+\cdots)=e^{-\lambda}e^{\lambda}=1.
k=0∑∞e−λk!λk=e−λ(1+λ+2!λ2+⋯)=e−λeλ=1.泊松随机变量适合用于
n
n
n很大,
p
p
p很小的情况。类似于试验次数很多,但是正面向上的概率很小的情况。当
λ
≤
1
\lambda≤1
λ≤1时,分布列单调递减;当
λ
>
1
\lambda>1
λ>1时,分布列随着
k
k
k的递增,先递增后递减。泊松随机变量逼近二项随机变量:
e
−
λ
λ
k
k
!
≈
n
!
k
!
(
n
−
k
)
!
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
⋯
,
n
.
e^{-\lambda}\frac {\lambda ^k}{k!} \approx \frac{n!}{k!(n-k)!}p^k(1-p)^{n-k},k=0,1,2,\cdots,n.
e−λk!λk≈k!(n−k)!n!pk(1−p)n−k,k=0,1,2,⋯,n.其中
λ
=
n
p
\lambda=np
λ=np,
n
n
n很大,
p
p
p很小。
随机变量的函数
设
X
X
X是一个随机变量。对
X
X
X施行不同的变换,可以得到其它的随机变量。设
Y
=
g
(
X
)
Y=g(X)
Y=g(X)是随机变量
X
X
X的函数,由于对每一个试验结果,也对应一个(
Y
Y
Y的)数值,故
Y
Y
Y本身也是一个随机变量。如果
X
X
X是离散的随机变量,其对应的分布列为
p
X
(
x
)
p_X(x)
pX(x),则
Y
Y
Y也是离散随机变量,其分布列可通过
X
X
X的分布列进行计算。实际上,对固定的
y
y
y值,
p
Y
(
y
)
p_Y(y)
pY(y)的值可以通过下式计算:
p
Y
(
y
)
=
∑
{
x
∣
g
(
x
)
=
y
}
p
X
(
x
)
.
p_Y(y)=\sum_{\lbrace{x|g(x)=y}\rbrace}p_X(x).
pY(y)={x∣g(x)=y}∑pX(x).
期望、均值和方差
期望: 设随机变量
X
X
X的分布列为
p
X
p_X
pX.
X
X
X的期望值(也称期望或均值)由下式给出:
E
[
X
]
=
∑
x
x
p
X
(
x
)
.
E[X]=\sum_x xp_X(x).
E[X]=x∑xpX(x).
方差、矩和随机变量的函数的期望规则
随机变量
X
2
X^2
X2的均值(即
E
[
X
2
]
E[X^2]
E[X2]),称为随机变量
X
X
X的二阶矩。
n
n
n阶矩
E
[
X
n
]
E[X^n]
E[Xn]定义为
X
n
X^n
Xn的期望值。均值本身刚好是一阶矩。方差: 记作
v
a
r
(
X
)
var(X)
var(X):
v
a
r
(
X
)
=
E
[
(
X
−
E
[
X
]
)
2
]
=
∑
x
(
x
−
E
[
X
]
)
2
p
X
(
x
)
.
var(X)=E[(X-E[X])^2]=\sum_x(x-E[X])^2p_X(x).
var(X)=E[(X−E[X])2]=x∑(x−E[X])2pX(x).方差只能是非负值,提供了
X
X
X在期望周围分散程度的一个测度。分散程度的另一个测度是标准差。标准差:
σ
X
=
v
a
r
(
X
)
.
\sigma_X=\sqrt {var(X)}.
σX=var(X)
.标准差具有实用性,因为它的量纲与
X
X
X相同。随机变量的函数的期望规则: 设随机变量
X
X
X的分布列为
p
X
p_X
pX,又设
g
(
X
)
g(X)
g(X)是
X
X
X的一个函数,则
g
(
X
)
g(X)
g(X)的期望由下列公式得到
E
[
g
(
X
)
]
=
∑
x
g
(
x
)
p
X
(
x
)
.
E[g(X)]=\sum_x g(x)p_X(x).
E[g(X)]=x∑g(x)pX(x).计算
X
X
X的
n
n
n阶矩:
E
[
X
n
]
=
∑
x
x
n
p
X
(
x
)
.
E[X^n]=\sum_x x^np_X(x).
E[Xn]=x∑xnpX(x).
均值和方差的性质
随机变量的线性函数的均值和方差: 设
X
X
X为随机变量,令
Y
=
a
X
+
b
,
Y=aX+b,
Y=aX+b,其中,
a
a
a和
b
b
b为给定的常数,则
E
[
Y
]
=
a
E
[
X
]
+
b
,
v
a
r
(
Y
)
=
a
2
v
a
r
(
X
)
.
E[Y]=aE[X]+b,var(Y)=a^2var(X).
E[Y]=aE[X]+b,var(Y)=a2var(X).用矩表达的方差公式:
v
a
r
(
X
)
=
E
[
X
2
]
−
(
E
[
X
]
)
2
.
var(X)=E[X^2]-(E[X])^2.
var(X)=E[X2]−(E[X])2.陷阱: 除非
g
(
X
)
g(X)
g(X)是一个线性函数,一般情况下,
E
[
g
(
X
)
]
≠
g
(
E
[
X
]
)
E[g(X)]≠g(E[X])
E[g(X)]=g(E[X])
某些常用的随机变量的均值和方差
伯努利随机变量的均值和方差:
伯努利随机变量的分布列为:
p
X
(
k
)
=
{
1
−
p
,
若
k
=
0
p
,
若
k
=
1
p_X(k)=\bigg\lbrace_{1-p,若k=0}^{p,若k=1}
pX(k)={1−p,若k=0p,若k=1下面给出其均值、二阶矩、方差的计算公式:
E
[
X
]
=
1
⋅
p
+
0
⋅
(
1
−
p
)
=
p
;
E[X]=1\cdot p+0\cdot (1-p)=p;
E[X]=1⋅p+0⋅(1−p)=p;
E
[
X
2
]
=
1
2
⋅
p
+
0
2
⋅
(
1
−
p
)
=
p
;
E[X^2]=1^2\cdot p+0^2\cdot (1-p)=p;
E[X2]=12⋅p+02⋅(1−p)=p;
v
a
r
(
X
)
=
E
[
X
2
]
−
(
E
[
X
]
)
2
=
p
−
p
2
=
p
(
1
−
p
)
.
var(X)=E[X^2]-(E[X])^2=p-p^2=p(1-p).
var(X)=E[X2]−(E[X])2=p−p2=p(1−p). 离散均匀随机变量的均值和方差:
离散均匀随机变量的分布列为:
p
X
(
k
)
=
{
0
,
其
它
1
b
−
a
+
1
,
若
k
=
a
,
a
+
1
,
⋯
,
b
p_X(k)=\bigg\lbrace_{0,其它}^{\frac {1}{b-a+1},若k=a,a+1,\cdots,b}
pX(k)={0,其它b−a+11,若k=a,a+1,⋯,b其中,
a
,
b
a,b
a,b是两个整数,作为随机变量的值域的两个端点。其分布列相对于
a
+
b
2
\frac {a+b}{2}
2a+b是对称的。下面是其均值、方差的计算公式:
E
[
X
]
=
a
+
b
2
,
E[X]=\frac {a+b}{2},
E[X]=2a+b,
v
a
r
(
X
)
=
(
b
−
1
)
(
b
−
a
+
2
)
12
var(X)=\frac {(b-1)(b-a+2)}{12}
var(X)=12(b−1)(b−a+2) 泊松随机变量的均值和方差:
泊松随机变量的分布列为:
p
X
(
k
)
=
e
−
λ
λ
k
k
!
,
k
=
0
,
1
,
2
,
⋯
.
p_X(k)=e^{-\lambda}\frac {\lambda ^k}{k!},k=0,1,2,\cdots.
pX(k)=e−λk!λk,k=0,1,2,⋯.下面是其均值、方差的计算公式:
E
[
X
]
=
λ
,
E[X]=\lambda,
E[X]=λ,
v
a
r
(
X
)
=
λ
var(X)=\lambda
var(X)=λ
利用期望值进行决策
如果把期望回报看成一个处理方案长期重复执行的平均回报,则选择具有最大期望的回报。
多个随机变量的联合分布列
设在同一个试验中,由两个随机变量
X
X
X和
Y
Y
Y,它们的取值概率可以用它们的联合分布列刻画,并且用
p
X
,
Y
p_{X,Y}
pX,Y表示。设
(
x
,
y
)
(x,y)
(x,y)是
X
X
X和
Y
Y
Y的可能取值,
(
x
,
y
)
(x,y)
(x,y)的概率质量定义为事件
{
X
=
x
,
Y
=
y
}
\lbrace{X=x,Y=y}\rbrace
{X=x,Y=y}的概率:
p
X
,
Y
=
P
(
X
=
x
,
Y
=
y
)
.
p_{X,Y}=P(X=x,Y=y).
pX,Y=P(X=x,Y=y).利用联合分布列可以确定任何由随机变量
X
X
X和
Y
Y
Y所刻画的事件的概率,例如
A
A
A是某些
(
x
,
y
)
(x,y)
(x,y)所形成的集合,则
P
(
(
X
,
Y
)
∈
A
)
=
∑
(
x
,
y
)
∈
A
p
X
,
Y
(
x
,
y
)
.
P((X,Y)\in A)=\sum_{(x,y)\in A}p_{X,Y}(x,y).
P((X,Y)∈A)=(x,y)∈A∑pX,Y(x,y).利用
X
X
X和
Y
Y
Y的联合分布列计算
X
X
X或
Y
Y
Y的分布列:
p
X
(
x
)
=
∑
y
p
X
,
Y
(
x
,
y
)
,
p
Y
(
y
)
∑
x
p
X
,
Y
(
x
,
y
)
.
p_X(x)=\sum_y p_{X,Y}(x,y),p_Y(y)\sum_x p_{X,Y}(x,y).
pX(x)=y∑pX,Y(x,y),pY(y)x∑pX,Y(x,y).称
p
X
(
x
)
p_X(x)
pX(x)或
p
Y
(
y
)
p_Y(y)
pY(y)为边缘分布列。
多个随机变量的函数
从二元函数
Z
=
g
(
X
,
Y
)
Z=g(X,Y)
Z=g(X,Y)可以确定一个新的随机变量。这个新的随机变量的分布列可以从联合分布列通过下式计算:
p
Z
(
z
)
=
∑
{
(
x
,
y
)
∣
g
(
x
,
y
)
=
z
}
p
X
,
Y
(
x
,
y
)
.
p_Z(z)=\sum_{\lbrace{(x,y)|g(x,y)=z}\rbrace}p_{X,Y}(x,y).
pZ(z)={(x,y)∣g(x,y)=z}∑pX,Y(x,y).进一步地,关于随机变量的函数的期望规则可以推广成下列形式
E
[
g
(
X
,
Y
)
]
=
∑
x
∑
y
g
(
x
,
y
)
p
X
,
Y
(
x
,
y
)
.
E[g(X,Y)]=\sum_x\sum_yg(x,y)p_{X,Y}(x,y).
E[g(X,Y)]=x∑y∑g(x,y)pX,Y(x,y).特别地,当
g
g
g是形如
a
X
+
b
Y
+
c
aX+bY+c
aX+bY+c的线性函数的时候,我们有
E
[
a
X
+
b
Y
+
c
]
=
a
E
[
X
]
+
b
E
[
Y
]
+
c
,
E[aX+bY+c]=aE[X]+bE[Y]+c,
E[aX+bY+c]=aE[X]+bE[Y]+c,其中
a
,
b
,
c
a,b,c
a,b,c均为给定的常数。
多于两个随机变量的情况
设有三个随机变量
X
,
Y
,
Z
X,Y,Z
X,Y,Z,其联合分布列的定义是类似的,即:
p
X
,
Y
,
Z
(
x
,
y
,
z
)
=
P
(
X
=
x
,
Y
=
y
,
Z
=
z
)
,
p_{X,Y,Z}(x,y,z)=P(X=x,Y=y,Z=z),
pX,Y,Z(x,y,z)=P(X=x,Y=y,Z=z),其中
(
x
,
y
,
z
)
(x,y,z)
(x,y,z)是
(
X
,
Y
,
Z
)
(X,Y,Z)
(X,Y,Z)的所有可能的取值。相应地,可以得到边缘分布,
p
X
,
Y
(
x
,
y
)
=
∑
z
p
X
,
Y
,
Z
(
x
,
y
,
z
)
,
p_{X,Y}(x,y)=\sum_zp_{X,Y,Z}(x,y,z),
pX,Y(x,y)=z∑pX,Y,Z(x,y,z),
p
X
(
x
)
=
∑
y
∑
z
p
X
,
Y
,
Z
(
x
,
y
,
z
)
.
p_X(x)=\sum_y\sum_zp_{X,Y,Z}(x,y,z).
pX(x)=y∑z∑pX,Y,Z(x,y,z).关于随机变量的函数的期望规则为
E
[
g
(
X
,
Y
,
Z
)
]
=
∑
x
∑
y
∑
z
g
(
x
,
y
,
z
)
p
X
,
Y
,
Z
(
x
,
y
,
z
)
,
E[g(X,Y,Z)]=\sum_x\sum_y\sum_zg(x,y,z)p_{X,Y,Z}(x,y,z),
E[g(X,Y,Z)]=x∑y∑z∑g(x,y,z)pX,Y,Z(x,y,z),并且,如果
g
g
g是形如
a
X
+
b
Y
+
c
Z
+
d
aX+bY+cZ+d
aX+bY+cZ+d线性函数,则
E
[
a
X
+
b
Y
+
c
Z
+
d
]
=
a
E
[
X
]
+
b
E
[
Y
]
+
c
E
[
Z
]
+
d
,
E[aX+bY+cZ+d]=aE[X]+bE[Y]+cE[Z]+d,
E[aX+bY+cZ+d]=aE[X]+bE[Y]+cE[Z]+d,进一步,推广到
n
n
n个随机变量的情况:
E
[
a
1
X
1
+
a
2
X
2
+
⋯
+
a
n
X
n
]
=
a
1
E
[
X
1
]
+
a
2
E
[
X
2
]
+
⋯
+
a
n
E
[
X
n
]
E[a_1X_1+a_2X_2+\cdots+a_nX_n]=a_1E[X_1]+a_2E[X_2]+\cdots+a_nE[X_n]
E[a1X1+a2X2+⋯+anXn]=a1E[X1]+a2E[X2]+⋯+anE[Xn]
条件
某个事件发生的条件下的随机变量
在某个事件
A
(
P
(
A
)
>
0
)
A(P(A)>0)
A(P(A)>0)发生的条件下,随机变量
X
X
X的条件分布列由下式给定:
p
X
∣
A
(
x
)
=
P
(
X
=
x
∣
A
)
=
P
(
{
X
=
x
}
∩
A
)
P
(
A
)
.
p_{X|A}(x)=P(X=x|A)=\frac {P(\lbrace{X=x}\rbrace\cap A)}{P(A)}.
pX∣A(x)=P(X=x∣A)=P(A)P({X=x}∩A).条件分布列的计算是,将满足
X
=
x
X=x
X=x并且属于
A
A
A的试验结果的概率相加,最后除以
P
(
A
)
P(A)
P(A),便得到
p
X
∣
A
(
x
)
p_{X|A}(x)
pX∣A(x)的值。
给定另一个随机变量的值的条件下的随机变量
设某一个试验中有两个随机变量
X
X
X和
Y
Y
Y。我们假定随机变量
Y
Y
Y已经取定一个值
y
(
p
Y
(
y
)
>
0
)
y(p_Y(y)>0)
y(pY(y)>0),这个
y
y
y值提供了关于
X
X
X取值的部分信息。这些信息包含于
X
X
X的给定
Y
Y
Y的值的条件分布列
p
X
∣
Y
p_{X|Y}
pX∣Y中。所谓条件分布列就是
p
X
∣
A
p_{X|A}
pX∣A,其中事件A就是事件
{
Y
=
y
}
\lbrace{Y=y}\rbrace
{Y=y}:
p
X
∣
Y
(
x
∣
y
)
=
P
(
X
=
x
∣
Y
=
y
)
.
p_{X|Y}(x|y)=P(X=x|Y=y).
pX∣Y(x∣y)=P(X=x∣Y=y).利用条件概率的定义,我们有
p
X
∣
Y
(
x
∣
y
)
=
P
(
X
=
x
,
Y
=
y
)
P
(
Y
=
y
)
=
p
X
,
Y
(
x
,
y
)
p
Y
(
y
)
.
p_{X|Y}(x|y)=\frac {P(X=x,Y=y)}{P(Y=y)}=\frac {p_{X,Y}(x,y)}{p_Y(y)}.
pX∣Y(x∣y)=P(Y=y)P(X=x,Y=y)=pY(y)pX,Y(x,y).
条件期望(全期望定理)
设
X
X
X和
Y
Y
Y为某一试验中的两个随机变量。
设
A
A
A为某事件,
P
(
A
)
>
0
P(A)>0
P(A)>0,随机变量
X
X
X在给定
A
A
A发生的条件下的条件期望为
E
[
X
∣
A
]
=
∑
x
x
p
X
∣
A
(
x
)
.
E[X|A]=\sum_xxp_{X|A}(x).
E[X∣A]=x∑xpX∣A(x).对于函数
g
(
X
)
g(X)
g(X),我们有
E
[
g
(
X
)
∣
A
]
=
∑
x
g
(
x
)
p
X
∣
A
(
x
)
.
E[g(X)|A]=\sum_xg(x)p_{X|A}(x).
E[g(X)∣A]=x∑g(x)pX∣A(x).给定
Y
=
y
Y=y
Y=y的条件下
X
X
X的条件期望由下式定义
E
[
X
∣
Y
=
y
]
=
∑
x
x
p
X
∣
Y
(
x
∣
y
)
.
E[X|Y=y]=\sum_xxp_{X|Y}(x|y).
E[X∣Y=y]=x∑xpX∣Y(x∣y).设
A
1
,
⋯
,
A
n
A_1,\cdots,A_n
A1,⋯,An是互不相容的事件并且形成样本空间的一个分割,假定
P
(
A
i
)
>
0
P(A_i)>0
P(Ai)>0对一切
i
i
i成立,则
E
[
X
]
=
∑
i
=
1
n
P
(
A
i
)
E
[
X
∣
A
i
]
.
E[X]=\sum_{i=1}^nP(A_i)E[X|A_i].
E[X]=i=1∑nP(Ai)E[X∣Ai].进一步假定事件
B
B
B满足对一切
i
i
i,
P
(
A
i
∩
B
)
>
0
P(A_i \cap B)>0
P(Ai∩B)>0,则
E
[
X
∣
B
]
=
∑
i
=
1
n
P
(
A
i
∣
B
)
E
[
X
∣
A
i
∩
B
]
.
E[X|B]=\sum_{i=1}^nP(A_i|B)E[X|A_i \cap B].
E[X∣B]=i=1∑nP(Ai∣B)E[X∣Ai∩B].我们有
E
[
X
]
=
∑
y
p
Y
(
y
)
E
[
X
∣
Y
=
y
]
.
E[X]=\sum_yp_Y(y)E[X|Y=y].
E[X]=y∑pY(y)E[X∣Y=y].
独立性
随机变量与事件的相互独立性
随机变量与事件的独立性 的概念与 两个事件的相互独立性 的概念是相同的。基本思想是:刻画条件的事件的发生与否不会对随机变量取值提供新的信息。随机变量
X
独
立
于
事
件
A
X独立于事件A
X独立于事件A是指
P
(
X
=
x
且
A
)
=
P
(
X
=
x
)
P
(
A
)
=
p
X
(
x
)
P
(
A
)
对
一
切
x
成
立
,
P(X=x且A)=P(X=x)P(A)=p_X(x)P(A)对一切x成立,
P(X=x且A)=P(X=x)P(A)=pX(x)P(A)对一切x成立,这个条件等价于:对任何
x
x
x,随机事件
{
X
=
x
}
\lbrace{X=x}\rbrace
{X=x}与事件
A
A
A相互独立。由条件分布列的定义,
P
(
X
=
x
且
A
)
=
p
X
∣
A
(
x
)
P
(
A
)
,
P(X=x且A)=p_{X|A}(x)P(A),
P(X=x且A)=pX∣A(x)P(A),所以,只要
P
(
A
)
>
0
P(A)>0
P(A)>0,随机变量
X
X
X与事件
A
A
A的独立性与下面的条件是等价的:
p
X
∣
A
(
x
)
=
p
X
(
x
)
对
一
切
x
成
立
.
p_{X|A}(x)=p_X(x)对一切x成立.
pX∣A(x)=pX(x)对一切x成立.
随机变量之间的相互独立性
随机变量之间的相互独立性 与 随机变量和随机事件的相互独立性 的概念是完全相同的。随机变量
X
X
X和
Y
Y
Y称为相互独立的随机变量,若它们满足
p
X
,
Y
(
x
,
y
)
=
p
X
(
x
)
p
Y
(
y
)
对
一
切
x
和
y
成
立
.
p_{X,Y}(x,y)=p_X(x)p_Y(y)对一切x和y成立.
pX,Y(x,y)=pX(x)pY(y)对一切x和y成立.这个条件等价于对任何
x
x
x,随机事件
X
=
x
X=x
X=x和
Y
=
y
Y=y
Y=y相互独立。最后,由公式
p
X
,
Y
(
x
,
y
)
=
p
X
∣
Y
(
x
,
y
)
p
Y
(
y
)
p_{X,Y}(x,y)=p_{X|Y}(x,y)p_Y(y)
pX,Y(x,y)=pX∣Y(x,y)pY(y)可知随机变量
X
X
X和
Y
Y
Y的相互独立性的条件等价于
p
X
∣
Y
(
x
∣
y
)
=
p
X
(
x
)
对
一
切
x
和
一
切
满
足
p
Y
(
y
)
>
0
的
y
成
立
.
p_{X|Y}(x|y)=p_X(x)对一切x和一切满足p_Y(y)>0的y成立.
pX∣Y(x∣y)=pX(x)对一切x和一切满足pY(y)>0的y成立.直观上,
Y
Y
Y和
X
X
X的独立性意味着
Y
Y
Y的取值不会提供
X
X
X的取值。关于独立随机变量的性质的小结: 设在某一试验中,
A
A
A是一个事件,满足条件
P
(
A
)
>
0
P(A)>0
P(A)>0,又设
X
X
X和
Y
Y
Y是在同一个试验中的两个随机变量.
称
X
X
X为相对于事件
A
A
A独立,如果满足
p
X
∣
A
(
x
)
=
p
X
(
x
)
对
一
切
x
成
立
,
p_{X|A}(x)=p_X(x)对一切x成立,
pX∣A(x)=pX(x)对一切x成立,即对一切
x
x
x,事件
{
X
=
x
}
\lbrace{X=x}\rbrace
{X=x}与
A
A
A相互独立.称
X
X
X和
Y
Y
Y为相互独立的随机变量,如果对一切可能的数对
(
x
,
y
)
(x,y)
(x,y),事件
{
X
=
x
}
\lbrace{X=x}\rbrace
{X=x}和
{
Y
=
y
}
\lbrace{Y=y}\rbrace
{Y=y}相互独立,或等价地
p
X
,
Y
(
x
,
y
)
=
p
X
(
x
)
p
Y
(
y
)
对
一
切
x
和
y
成
立
.
p_{X,Y}(x,y)=p_X(x)p_Y(y)对一切x和y成立.
pX,Y(x,y)=pX(x)pY(y)对一切x和y成立.若
X
X
X和
Y
Y
Y相互独立,则
E
[
X
Y
]
=
E
[
X
]
E
[
Y
]
.
E[XY]=E[X]E[Y].
E[XY]=E[X]E[Y].进一步地,对于任意函数
g
g
g和
h
h
h,随机事件
g
(
X
)
g(X)
g(X)和
h
(
Y
)
h(Y)
h(Y)也是相互独立的,并且
E
[
g
(
X
)
h
(
Y
)
]
=
E
[
g
(
X
)
]
E
[
h
(
Y
)
]
.
E[g(X)h(Y)]=E[g(X)]E[h(Y)].
E[g(X)h(Y)]=E[g(X)]E[h(Y)].若
X
X
X和
Y
Y
Y相互独立,则
v
a
r
(
X
+
Y
)
=
v
a
r
(
X
)
+
v
a
r
(
Y
)
.
var(X+Y)=var(X)+var(Y).
var(X+Y)=var(X)+var(Y).
几个随机变量的相互独立性
我们称随机变量
X
,
Y
,
Z
X,Y,Z
X,Y,Z是三个相互独立的随机变量,如果它们满足
p
X
,
Y
,
Z
(
x
,
y
,
z
)
=
p
X
(
x
)
p
Y
(
y
)
p
Z
(
z
)
对
一
切
x
,
y
,
z
成
立
.
p_{X,Y,Z}(x,y,z)=p_X(x)p_Y(y)p_Z(z)对一切x,y,z成立.
pX,Y,Z(x,y,z)=pX(x)pY(y)pZ(z)对一切x,y,z成立.设
X
,
Y
,
Z
X,Y,Z
X,Y,Z是三个相互独立的随机变量,则任何形如
f
(
X
)
,
g
(
Y
)
,
h
(
Z
)
f(X),g(Y),h(Z)
f(X),g(Y),h(Z)的三个随机变量也是相互独立的。任何两个随机变量
g
(
X
,
Y
)
,
h
(
Z
)
g(X,Y),h(Z)
g(X,Y),h(Z)也是相互独立的,但是形如
g
(
X
,
Y
)
,
h
(
Y
,
Z
)
g(X,Y),h(Y,Z)
g(X,Y),h(Y,Z)的两个随机变量通常不是相互独立的,因它们受公共的随机变量
Y
Y
Y的影响。
若干个相互独立的随机变量的和的方差
设
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn为相互独立的随机变量序列,则
v
a
r
(
X
1
+
⋯
+
X
n
)
=
v
a
r
(
X
1
)
+
⋯
+
v
a
r
(
X
n
)
.
var(X_1+\cdots+X_n)=var(X_1)+\cdots +var(X_n).
var(X1+⋯+Xn)=var(X1)+⋯+var(Xn).