概率论与数理统计教程(三)-多维随机变量及其分布04:多维随机变量的特征数02【协方差、相关系数、随机向量的数学期望向量与协方差矩阵】
3.4.3 协方差二维联合分布中除含有各分量的边际分布外, 还含有两个分量间相互关系的信息.描述这种相互关联程度的一个特征数就是协方差, 它的定义如下:定义 3.4.1 设 (X,Y)(X, Y)(X,Y) 是一个二维随机变量, 若 E[(X−E(X))(Y−E(Y))]E[(X-E(X))(Y-E(Y))]E[(X−E(X))(Y−E(Y))]存在,则称此数学期望为 XXX 与 YYY 的协方差
3.4.3 协方差
二维联合分布中除含有各分量的边际分布外,还含有两个分量间相互关系的信息。描述这种相互关联程度的一个特征数就是协方差,它的定义如下:
定义 3.4.1
设 (X,Y)(X, Y)(X,Y) 是一个二维随机变量,若 E[(X−E(X))(Y−E(Y))]E[(X-E(X))(Y-E(Y))]E[(X−E(X))(Y−E(Y))] 存在,则称此数学期望为 XXX 与 YYY 的协方差,或称为 XXX 与 YYY 的相关(中心)矩,并记为
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]\operatorname{Cov}(X, Y)=E[(X-E(X))(Y-E(Y))]Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
特别有 Cov(X,X)=Var(X)\operatorname{Cov}(X, X)=\operatorname{Var}(X)Cov(X,X)=Var(X)。
协方差的含义
从协方差的定义可以看出,它是 XXX 的偏差 “X−E(X)X-E(X)X−E(X)” 与 YYY 的偏差 “Y−E(Y)Y-E(Y)Y−E(Y)” 乘积的数学期望。由于偏差可正可负,故协方差也可正可负,也可为零,其具体表现如下:
-
当 Cov(X,Y)>0\operatorname{Cov}(X, Y)>0Cov(X,Y)>0 时,称 XXX 与 YYY 正相关。
这时两个偏差 (X−E(X))(X-E(X))(X−E(X)) 与 (Y−E(Y))(Y-E(Y))(Y−E(Y)) 有同时增加或同时减少的倾向。由于 E(X)E(X)E(X) 与 E(Y)E(Y)E(Y) 都是常数,故等价于 XXX 与 YYY 有同时增加或同时减少的倾向,这就是正相关的含义。 -
当 Cov(X,Y)<0\operatorname{Cov}(X, Y)<0Cov(X,Y)<0 时,称 XXX 与 YYY 负相关。
这时有 XXX 增加而 YYY 减少的倾向,或有 YYY 增加而 XXX 减少的倾向,这就是负相关的含义。 -
当 Cov(X,Y)=0\operatorname{Cov}(X, Y)=0Cov(X,Y)=0 时,称 XXX 与 YYY 不相关。
这时可能由两类情况导致:一类是 XXX 与 YYY 的取值毫无关联(见性质 3.4.5),另一类是 XXX 与 YYY 间存有某种非线性关系(见例 3.4.6)。
协方差的性质
下面的性质在协方差的计算中是很有用的。
性质 3.4.4
Cov(X,Y)=E(XY)−E(X)E(Y)\operatorname{Cov}(X, Y)=E(XY)-E(X)E(Y)Cov(X,Y)=E(XY)−E(X)E(Y)
证明: 由协方差的定义和数学期望的性质可知
Cov(X,Y)=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−E(X)E(Y)\begin{aligned} \operatorname{Cov}(X, Y) &= E[XY-XE(Y)-YE(X)+E(X)E(Y)] \\ &= E(XY)-E(X)E(Y) \end{aligned}Cov(X,Y)=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−E(X)E(Y)
性质 3.4.5
若随机变量 XXX 与 YYY 相互独立,则 Cov(X,Y)=0\operatorname{Cov}(X, Y)=0Cov(X,Y)=0,反之不然。
证明: 这是因为在独立场合有 E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)E(XY)=E(X)E(Y),再由以上性质 3.4.4 即可得协方差为零。反之不然,可见下面的反例。
例 3.4.6
设随机变量 X∼N(0,σ2)X \sim N(0, \sigma^2)X∼N(0,σ2),且令 Y=X2Y=X^2Y=X2,则 XXX 与 YYY 不独立。此时 XXX 与 YYY 的协方差为
Cov(X,Y)=Cov(X,X2)=E(X⋅X2)−E(X)E(X2)=0\operatorname{Cov}(X, Y)=\operatorname{Cov}(X, X^2)=E(X \cdot X^2)-E(X)E(X^2)=0Cov(X,Y)=Cov(X,X2)=E(X⋅X2)−E(X)E(X2)=0
最后的等式是因为正态分布 N(0,σ2)N(0, \sigma^2)N(0,σ2) 的奇数阶原点矩均为零,即 E(X)=E(X3)=0E(X)=E(X^3)=0E(X)=E(X3)=0。
这个例子表明,“独立"必导致"不相关”,而"不相关"不一定导致"独立"。独立要求严,不相关要求宽。因为独立性是用分布定义的,而不相关只是用矩定义的。
图 3.4.1 不相关与独立的逻辑关系
现可以将条件"独立"降弱为"不相关"。
性质 3.4.6
对任意二维随机变量 (X,Y)(X, Y)(X,Y),有
Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)\operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) \pm 2\operatorname{Cov}(X, Y)Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)
证明: 由方差的定义知
Var(X±Y)=E[(X±Y)−E(X±Y)]2=E{[X−E(X)]±[Y−E(Y)]}2=E{[X−E(X)]2+[Y−E(Y)]2±2[X−E(X)][Y−E(Y)]}=Var(X)+Var(Y)±2Cov(X,Y)\begin{aligned} \operatorname{Var}(X \pm Y) &= E[(X \pm Y)-E(X \pm Y)]^2 \\ &= E\{[X-E(X)] \pm [Y-E(Y)]\}^2 \\ &= E\{[X-E(X)]^2+[Y-E(Y)]^2 \pm 2[X-E(X)][Y-E(Y)]\} \\ &= \operatorname{Var}(X)+\operatorname{Var}(Y) \pm 2\operatorname{Cov}(X, Y) \end{aligned}Var(X±Y)=E[(X±Y)−E(X±Y)]2=E{[X−E(X)]±[Y−E(Y)]}2=E{[X−E(X)]2+[Y−E(Y)]2±2[X−E(X)][Y−E(Y)]}=Var(X)+Var(Y)±2Cov(X,Y)
这个性质表明:在 XXX 与 YYY 相关的场合,和的方差不等于方差的和。XXX 与 YYY 的正相关会增加和的方差,负相关会减少和的方差,而在 XXX 与 YYY 不相关的场合,和的方差等于方差的和。这又可将前面有关方差的性质 3.4.3 修改如下:
若 XXX 与 YYY 不相关,则
Var(X±Y)=Var(X)+Var(Y)\operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)Var(X±Y)=Var(X)+Var(Y)
以上性质 3.4.6 还可以推广到更多个随机变量场合,即对任意 nnn 个随机变量 X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn,有
Var(∑i=1nXi)=∑i=1nVar(Xi)+2∑i=1n−1∑j=i+1nCov(Xi,Xj)\operatorname{Var}\left(\sum_{i=1}^{n} X_i\right)=\sum_{i=1}^{n} \operatorname{Var}(X_i)+2\sum_{i=1}^{n-1}\sum_{j=i+1}^{n} \operatorname{Cov}(X_i, X_j)Var(i=1∑nXi)=i=1∑nVar(Xi)+2i=1∑n−1j=i+1∑nCov(Xi,Xj)
协方差的计算性质
关于协方差的计算,还有下面四条有用的性质。
性质 3.4.7
协方差 Cov(X,Y)\operatorname{Cov}(X, Y)Cov(X,Y) 的计算与 X,YX, YX,Y 的次序无关,即
Cov(X,Y)=Cov(Y,X)\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X)Cov(X,Y)=Cov(Y,X)
证明: 这由协方差的定义就可看出。
性质 3.4.8
任意随机变量 XXX 与常数 aaa 的协方差为零,即
Cov(X,a)=0\operatorname{Cov}(X, a)=0Cov(X,a)=0
证明: 这只要用协方差的定义计算一下即可得知。
性质 3.4.9
对任意常数 a,ba, ba,b,有
Cov(aX,bY)=abCov(X,Y)\operatorname{Cov}(aX, bY)=ab\operatorname{Cov}(X, Y)Cov(aX,bY)=abCov(X,Y)
证明: 由协方差的定义知
Cov(aX,bY)=E[(aX−E(aX))(bY−E(bY))]\operatorname{Cov}(aX, bY)=E[(aX-E(aX))(bY-E(bY))]Cov(aX,bY)=E[(aX−E(aX))(bY−E(bY))]
把公因子 aaa 与 bbb 提出,即得 abCov(X,Y)ab\operatorname{Cov}(X, Y)abCov(X,Y)。
性质 3.4.10
设 X,Y,ZX, Y, ZX,Y,Z 是任意三个随机变量,则
Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\operatorname{Cov}(X+Y, Z)=\operatorname{Cov}(X, Z)+\operatorname{Cov}(Y, Z)Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
证明: 由协方差的性质 3.4.4 得
Cov(X+Y,Z)=E[(X+Y)Z]−E(X+Y)E(Z)=E(XZ)+E(YZ)−E(X)E(Z)−E(Y)E(Z)=[E(XZ)−E(X)E(Z)]+[E(YZ)−E(Y)E(Z)]=Cov(X,Z)+Cov(Y,Z)\begin{aligned} \operatorname{Cov}(X+Y, Z) &= E[(X+Y)Z]-E(X+Y)E(Z) \\ &= E(XZ)+E(YZ)-E(X)E(Z)-E(Y)E(Z) \\ &= [E(XZ)-E(X)E(Z)]+[E(YZ)-E(Y)E(Z)] \\ &= \operatorname{Cov}(X, Z)+\operatorname{Cov}(Y, Z) \end{aligned}Cov(X+Y,Z)=E[(X+Y)Z]−E(X+Y)E(Z)=E(XZ)+E(YZ)−E(X)E(Z)−E(Y)E(Z)=[E(XZ)−E(X)E(Z)]+[E(YZ)−E(Y)E(Z)]=Cov(X,Z)+Cov(Y,Z)
计算实例
例 3.4.7
设二维随机变量 (X,Y)(X, Y)(X,Y) 的联合密度函数为
p(x,y)={3x,0<y<x<1,0,其他p(x, y)=\left\{\begin{array}{ll} 3x, & 0<y<x<1, \\ 0, & \text{其他} \end{array}\right.p(x,y)={3x,0,0<y<x<1,其他
试求 Cov(X,Y)\operatorname{Cov}(X, Y)Cov(X,Y)。
解: 利用协方差的计算公式,我们需要先计算 E(X),E(Y),E(XY)E(X), E(Y), E(XY)E(X),E(Y),E(XY) 的值,它们可直接用 p(x,y)p(x, y)p(x,y) 导出,但要注意积分限的确定,具体如下:
E(X)=∫01∫0xx⋅3x dy dx=∫013x3 dx=34E(Y)=∫01∫0xy⋅3x dy dx=∫013x32 dx=38E(XY)=∫01∫0xxy⋅3x dy dx=∫013x42 dx=310\begin{aligned} E(X) &= \int_{0}^{1} \int_{0}^{x} x \cdot 3x \, dy \, dx = \int_{0}^{1} 3x^3 \, dx = \frac{3}{4} \\ E(Y) &= \int_{0}^{1} \int_{0}^{x} y \cdot 3x \, dy \, dx = \int_{0}^{1} \frac{3x^3}{2} \, dx = \frac{3}{8} \\ E(XY) &= \int_{0}^{1} \int_{0}^{x} xy \cdot 3x \, dy \, dx = \int_{0}^{1} \frac{3x^4}{2} \, dx = \frac{3}{10} \end{aligned}E(X)E(Y)E(XY)=∫01∫0xx⋅3xdydx=∫013x3dx=43=∫01∫0xy⋅3xdydx=∫0123x3dx=83=∫01∫0xxy⋅3xdydx=∫0123x4dx=103
因此我们得
Cov(X,Y)=310−34×38=3160>0\operatorname{Cov}(X, Y) = \frac{3}{10} - \frac{3}{4} \times \frac{3}{8} = \frac{3}{160} > 0Cov(X,Y)=103−43×83=1603>0
由此我们还可以得结论:XXX 与 YYY 不相互独立。
例 3.4.8
设二维随机变量 (X,Y)(X, Y)(X,Y) 的联合密度函数为
p(x,y)={13(x+y),0<x<1,0<y<2,0,其他p(x, y)=\left\{\begin{array}{ll} \frac{1}{3}(x+y), & 0<x<1, 0<y<2, \\ 0, & \text{其他} \end{array}\right.p(x,y)={31(x+y),0,0<x<1,0<y<2,其他
试求 Var(2X−3Y+8)\operatorname{Var}(2X-3Y+8)Var(2X−3Y+8)。
解: 因为
Var(2X−3Y+8)=Var(2X)+Var(3Y)−2Cov(2X,3Y)=4Var(X)+9Var(Y)−12Cov(X,Y)\begin{aligned} \operatorname{Var}(2X-3Y+8) &= \operatorname{Var}(2X)+\operatorname{Var}(3Y)-2\operatorname{Cov}(2X, 3Y) \\ &= 4\operatorname{Var}(X)+9\operatorname{Var}(Y)-12\operatorname{Cov}(X, Y) \end{aligned}Var(2X−3Y+8)=Var(2X)+Var(3Y)−2Cov(2X,3Y)=4Var(X)+9Var(Y)−12Cov(X,Y)
所以我们先要分别计算 E(X),E(X2),E(Y),E(Y2),E(XY)E(X), E(X^2), E(Y), E(Y^2), E(XY)E(X),E(X2),E(Y),E(Y2),E(XY)。
为此先计算两个边际密度函数:
pX(x)=∫0213(x+y) dy=23(x+1),0<x<1pY(y)=∫0113(x+y) dx=13(12+y),0<y<2\begin{aligned} p_X(x) &= \int_{0}^{2} \frac{1}{3}(x+y) \, dy = \frac{2}{3}(x+1), \quad 0<x<1 \\ p_Y(y) &= \int_{0}^{1} \frac{1}{3}(x+y) \, dx = \frac{1}{3}\left(\frac{1}{2}+y\right), \quad 0<y<2 \end{aligned}pX(x)pY(y)=∫0231(x+y)dy=32(x+1),0<x<1=∫0131(x+y)dx=31(21+y),0<y<2
然后再计算一、二阶矩:
E(X)=∫0123x(x+1) dx=59E(X2)=∫0123x2(x+1) dx=718E(Y)=∫0213y(12+y) dy=119E(Y2)=∫0213y2(12+y) dy=169\begin{aligned} E(X) &= \int_{0}^{1} \frac{2}{3} x(x+1) \, dx = \frac{5}{9} \\ E(X^2) &= \int_{0}^{1} \frac{2}{3} x^2(x+1) \, dx = \frac{7}{18} \\ E(Y) &= \int_{0}^{2} \frac{1}{3} y\left(\frac{1}{2}+y\right) \, dy = \frac{11}{9} \\ E(Y^2) &= \int_{0}^{2} \frac{1}{3} y^2\left(\frac{1}{2}+y\right) \, dy = \frac{16}{9} \end{aligned}E(X)E(X2)E(Y)E(Y2)=∫0132x(x+1)dx=95=∫0132x2(x+1)dx=187=∫0231y(21+y)dy=911=∫0231y2(21+y)dy=916
由此得
Var(X)=718−(59)2=13162,Var(Y)=169−(119)2=2381\operatorname{Var}(X) = \frac{7}{18} - \left(\frac{5}{9}\right)^2 = \frac{13}{162}, \quad \operatorname{Var}(Y) = \frac{16}{9} - \left(\frac{11}{9}\right)^2 = \frac{23}{81}Var(X)=187−(95)2=16213,Var(Y)=916−(911)2=8123
最后还需要计算 E(XY)E(XY)E(XY),它只能从联合密度函数导出:
E(XY)=13∫01∫02xy(x+y) dy dx=13∫01(2x2+83x) dx=23E(XY) = \frac{1}{3} \int_{0}^{1} \int_{0}^{2} xy(x+y) \, dy \, dx = \frac{1}{3} \int_{0}^{1}\left(2x^2+\frac{8}{3}x\right) \, dx = \frac{2}{3}E(XY)=31∫01∫02xy(x+y)dydx=31∫01(2x2+38x)dx=32
于是得协方差为
Cov(X,Y)=23−59×119=−181\operatorname{Cov}(X, Y) = \frac{2}{3} - \frac{5}{9} \times \frac{11}{9} = -\frac{1}{81}Cov(X,Y)=32−95×911=−811
代回原式得
Var(2X−3Y+8)=4×13162+9×2381−12×(−181)=24581\operatorname{Var}(2X-3Y+8) = 4 \times \frac{13}{162} + 9 \times \frac{23}{81} - 12 \times\left(-\frac{1}{81}\right) = \frac{245}{81}Var(2X−3Y+8)=4×16213+9×8123−12×(−811)=81245
3.4.4 相关系数
协方差 Cov(X,Y)\operatorname{Cov}(X, Y)Cov(X,Y) 是有量纲的量,比如 XXX 表示人的身高,单位是米 (m),YYY 表示人的体重,单位是千克 (kg),则 Cov(X,Y)\operatorname{Cov}(X, Y)Cov(X,Y) 带有量纲 (m·kg)。为了消除量纲的影响,现对协方差除以相同量纲的量,就得到一个新的概念——相关系数,它的定义如下。
定义 3.4.2
设 (X,Y)(X, Y)(X,Y) 是一个二维随机变量,且 Var(X)=σX2>0,Var(Y)=σY2>0\operatorname{Var}(X)=\sigma_X^2>0, \operatorname{Var}(Y)=\sigma_Y^2>0Var(X)=σX2>0,Var(Y)=σY2>0。则称
Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)=Cov(X,Y)σXσY\operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \sqrt{\operatorname{Var}(Y)}}=\frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y}Corr(X,Y)=Var(X)Var(Y)Cov(X,Y)=σXσYCov(X,Y)
为 XXX 与 YYY 的(线性)相关系数。
相关系数的性质
从以上定义中可看出:相关系数 Corr(X,Y)\operatorname{Corr}(X, Y)Corr(X,Y) 与协方差 Cov(X,Y)\operatorname{Cov}(X, Y)Cov(X,Y) 是同符号的,即同为正,或同为负,或同为零。这说明,从相关系数的取值也可反映出 XXX 与 YYY 的正相关、负相关和不相关。
相关系数的另一个解释是:它是相应标准化变量的协方差。若记 XXX 与 YYY 的数学期望分别为 μX,μY\mu_X, \mu_YμX,μY,其标准化变量为
X∗=X−μXσX,Y∗=Y−μYσYX^* = \frac{X-\mu_X}{\sigma_X}, \quad Y^* = \frac{Y-\mu_Y}{\sigma_Y}X∗=σXX−μX,Y∗=σYY−μY
则有
Cov(X∗,Y∗)=Cov(X−μXσX,Y−μYσY)=Cov(X,Y)σXσY=Corr(X,Y)\operatorname{Cov}(X^*, Y^*) = \operatorname{Cov}\left(\frac{X-\mu_X}{\sigma_X}, \frac{Y-\mu_Y}{\sigma_Y}\right) = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} = \operatorname{Corr}(X, Y)Cov(X∗,Y∗)=Cov(σXX−μX,σYY−μY)=σXσYCov(X,Y)=Corr(X,Y)
相关系数的实例
例 3.4.9
二维正态分布 N(μ1,μ2,σ12,σ22,ρ)N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)N(μ1,μ2,σ12,σ22,ρ) 的相关系数就是 ρ\rhoρ。
解: 下面先求 Cov(X,Y)\operatorname{Cov}(X, Y)Cov(X,Y)。
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=12πσ1σ21−ρ2∫−∞∞∫−∞∞(x−μ1)(y−μ2)⋅exp{−12(1−ρ2)[(x−μ1)2σ12−2ρ(x−μ1)(y−μ2)σ1σ2+(y−μ2)2σ22]} dx dy\begin{aligned} \operatorname{Cov}(X, Y) &= E[(X-E(X))(Y-E(Y))] \\ &= \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}(x-\mu_1)(y-\mu_2) \cdot \\ &\quad \exp \left\{-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho \frac{(x-\mu_1)(y-\mu_2)}{\sigma_1 \sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\right]\right\} \, dx \, dy \end{aligned}Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=2πσ1σ21−ρ21∫−∞∞∫−∞∞(x−μ1)(y−μ2)⋅exp{−2(1−ρ2)1[σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2]}dxdy
先将上式中方括号内化成
(x−μ1σ1−ρy−μ2σ2)2+(1−ρ2y−μ2σ2)2\left(\frac{x-\mu_1}{\sigma_1}-\rho \frac{y-\mu_2}{\sigma_2}\right)^2+\left(\sqrt{1-\rho^2} \frac{y-\mu_2}{\sigma_2}\right)^2(σ1x−μ1−ρσ2y−μ2)2+(1−ρ2σ2y−μ2)2
再作变量变换
{u=11−ρ2(x−μ1σ1−ρy−μ2σ2)v=y−μ2σ2\left\{\begin{array}{l} u=\frac{1}{\sqrt{1-\rho^2}}\left(\frac{x-\mu_1}{\sigma_1}-\rho \frac{y-\mu_2}{\sigma_2}\right) \\ v=\frac{y-\mu_2}{\sigma_2} \end{array}\right.{u=1−ρ21(σ1x−μ1−ρσ2y−μ2)v=σ2y−μ2
则
{x−μ1=σ1(u1−ρ2+ρv)y−μ2=σ2v\left\{\begin{array}{l} x-\mu_1=\sigma_1(u \sqrt{1-\rho^2}+\rho v) \\ y-\mu_2=\sigma_2 v \end{array}\right.{x−μ1=σ1(u1−ρ2+ρv)y−μ2=σ2v
dx dy=∣J∣ du dv=σ1σ21−ρ2 du dvdx \, dy = |J| \, du \, dv = \sigma_1 \sigma_2 \sqrt{1-\rho^2} \, du \, dvdxdy=∣J∣dudv=σ1σ21−ρ2dudv
由此得
Cov(X,Y)=σ1σ22π∫−∞∞∫−∞∞(uv1−ρ2+ρv2)exp{−12(u2+v2)} du dv\operatorname{Cov}(X, Y) = \frac{\sigma_1 \sigma_2}{2\pi} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}(uv \sqrt{1-\rho^2}+\rho v^2) \exp \left\{-\frac{1}{2}(u^2+v^2)\right\} \, du \, dvCov(X,Y)=2πσ1σ2∫−∞∞∫−∞∞(uv1−ρ2+ρv2)exp{−21(u2+v2)}dudv
上式右端积分可以分为两个积分之和,其中
∫−∞∞∫−∞∞uvexp{−12(u2+v2)} du dv=0∫−∞∞∫−∞∞v2exp{−12(u2+v2)} du dv=2π\begin{aligned} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} uv \exp \left\{-\frac{1}{2}(u^2+v^2)\right\} \, du \, dv &= 0 \\ \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} v^2 \exp \left\{-\frac{1}{2}(u^2+v^2)\right\} \, du \, dv &= 2\pi \end{aligned}∫−∞∞∫−∞∞uvexp{−21(u2+v2)}dudv∫−∞∞∫−∞∞v2exp{−21(u2+v2)}dudv=0=2π
从而
Cov(X,Y)=σ1σ22π⋅ρ⋅2π=ρσ1σ2Corr(X,Y)=Cov(X,Y)σ1σ2=ρ\begin{aligned} \operatorname{Cov}(X, Y) &= \frac{\sigma_1 \sigma_2}{2\pi} \cdot \rho \cdot 2\pi = \rho \sigma_1 \sigma_2 \\ \operatorname{Corr}(X, Y) &= \frac{\operatorname{Cov}(X, Y)}{\sigma_1 \sigma_2} = \rho \end{aligned}Cov(X,Y)Corr(X,Y)=2πσ1σ2⋅ρ⋅2π=ρσ1σ2=σ1σ2Cov(X,Y)=ρ
为了研究相关系数的性质, 需要如下引理.
引理 3.4.1 (施瓦茨 (Schwarz) 不等式)
对任意二维随机变量 (X,Y)(X, Y)(X,Y),若 XXX 与 YYY 的方差都存在,且记
σX2=Var(X),σY2=Var(Y)\sigma_X^2 = \operatorname{Var}(X), \quad \sigma_Y^2 = \operatorname{Var}(Y)σX2=Var(X),σY2=Var(Y)
则有
[Cov(X,Y)]2≤σX2σY2(3.4.11)[\operatorname{Cov}(X, Y)]^2 \leq \sigma_X^2 \sigma_Y^2 \tag{3.4.11}[Cov(X,Y)]2≤σX2σY2(3.4.11)
证明
不妨设 σX2>0\sigma_X^2 > 0σX2>0,因为当 σX2=0\sigma_X^2 = 0σX2=0 时,则 XXX 几乎处处为常数,因而其与 YYY 的协方差亦为零,从而 (3.4.11) 式两端皆为零,结论成立。
若 σX2>0\sigma_X^2 > 0σX2>0 成立,考虑 ttt 的如下二次函数:
g(t)=E[t(X−E(X))+(Y−E(Y))]2=t2σX2+2t⋅Cov(X,Y)+σY2g(t) = E[t(X-E(X))+(Y-E(Y))]^2 = t^2 \sigma_X^2 + 2t \cdot \operatorname{Cov}(X, Y) + \sigma_Y^2g(t)=E[t(X−E(X))+(Y−E(Y))]2=t2σX2+2t⋅Cov(X,Y)+σY2
由于上述的二次三项式非负,平方项系数 σX2\sigma_X^2σX2 为正,所以其判别式小于或等于零,即
[2Cov(X,Y)]2−4σX2σY2≤0[2 \operatorname{Cov}(X, Y)]^2 - 4 \sigma_X^2 \sigma_Y^2 \leq 0[2Cov(X,Y)]2−4σX2σY2≤0
移项后即得施瓦茨不等式。
相关系数的重要性质
利用施瓦茨不等式立即可得相关系数的一个重要性质。
性质 3.4.11
−1≤Corr(X,Y)≤1-1 \leq \operatorname{Corr}(X, Y) \leq 1−1≤Corr(X,Y)≤1
或
∣Corr(X,Y)∣≤1|\operatorname{Corr}(X, Y)| \leq 1∣Corr(X,Y)∣≤1
这个性质表明:相关系数介于 -1 与 1 之间。当相关系数为 ±1\pm 1±1 时,有另一重要性质。
性质 3.4.12
Corr(X,Y)=±1\operatorname{Corr}(X, Y) = \pm 1Corr(X,Y)=±1 的充要条件是 XXX 与 YYY 间几乎处处有线性关系,即存在 a(≠0)a(\neq 0)a(=0) 与 bbb,使得
P(Y=aX+b)=1P(Y = aX + b) = 1P(Y=aX+b)=1
其中:
- 当 Corr(X,Y)=1\operatorname{Corr}(X, Y) = 1Corr(X,Y)=1 时,有 a>0a > 0a>0
- 当 Corr(X,Y)=−1\operatorname{Corr}(X, Y) = -1Corr(X,Y)=−1 时,有 a<0a < 0a<0
证明
充分性:若 Y=aX+bY = aX + bY=aX+b(X=cY+dX = cY + dX=cY+d 也一样),则将
Var(Y)=a2Var(X),Cov(X,Y)=aCov(X,X)=aVar(X)\operatorname{Var}(Y) = a^2 \operatorname{Var}(X), \quad \operatorname{Cov}(X, Y) = a \operatorname{Cov}(X, X) = a \operatorname{Var}(X)Var(Y)=a2Var(X),Cov(X,Y)=aCov(X,X)=aVar(X)
代入相关系数的定义中得
Corr(X,Y)=Cov(X,Y)σXσY=aVar(X)∣a∣Var(X)={1,a>0−1,a<0\operatorname{Corr}(X, Y) = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{a \operatorname{Var}(X)}{|a| \operatorname{Var}(X)} = \begin{cases} 1, & a > 0 \\ -1, & a < 0 \end{cases}Corr(X,Y)=σXσYCov(X,Y)=∣a∣Var(X)aVar(X)={1,−1,a>0a<0
必要性:因为
Var(XσX±YσY)=2[1±Corr(X,Y)](3.4.12)\operatorname{Var}\left(\frac{X}{\sigma_X} \pm \frac{Y}{\sigma_Y}\right) = 2[1 \pm \operatorname{Corr}(X, Y)] \tag{3.4.12}Var(σXX±σYY)=2[1±Corr(X,Y)](3.4.12)
所以当 Corr(X,Y)=1\operatorname{Corr}(X, Y) = 1Corr(X,Y)=1 时,有
Var(XσX−YσY)=0\operatorname{Var}\left(\frac{X}{\sigma_X} - \frac{Y}{\sigma_Y}\right) = 0Var(σXX−σYY)=0
由此得
P(XσX−YσY=c)=1P\left(\frac{X}{\sigma_X} - \frac{Y}{\sigma_Y} = c\right) = 1P(σXX−σYY=c)=1
或
P(Y=σYσXX−cσY)=1P\left(Y = \frac{\sigma_Y}{\sigma_X} X - c \sigma_Y\right) = 1P(Y=σXσYX−cσY)=1
这就证明了:当 Corr(X,Y)=1\operatorname{Corr}(X, Y) = 1Corr(X,Y)=1 时,YYY 与 XXX 几乎处处为线性正相关。
当 Corr(X,Y)=−1\operatorname{Corr}(X, Y) = -1Corr(X,Y)=−1 时,由 (3.4.12) 式得
Var(XσX+YσY)=0\operatorname{Var}\left(\frac{X}{\sigma_X} + \frac{Y}{\sigma_Y}\right) = 0Var(σXX+σYY)=0
由此得
P(XσX+YσY=c)=1P\left(\frac{X}{\sigma_X} + \frac{Y}{\sigma_Y} = c\right) = 1P(σXX+σYY=c)=1
或
P(Y=−σYσXX+cσY)=1P\left(Y = -\frac{\sigma_Y}{\sigma_X} X + c \sigma_Y\right) = 1P(Y=−σXσYX+cσY)=1
这也证明了:当 Corr(X,Y)=−1\operatorname{Corr}(X, Y) = -1Corr(X,Y)=−1 时,YYY 与 XXX 几乎处处为线性负相关。
相关系数的说明
对于这个性质可作以下几点说明:
-
线性相关性:相关系数 Corr(X,Y)\operatorname{Corr}(X, Y)Corr(X,Y) 刻画了 XXX 与 YYY 之间的线性关系强弱,因此也常称其为"线性相关系数"。
-
不相关:若 Corr(X,Y)=0\operatorname{Corr}(X, Y) = 0Corr(X,Y)=0,则称 XXX 与 YYY 不相关。不相关是指 XXX 与 YYY 之间没有线性关系,但 XXX 与 YYY 之间可能有其他的函数关系,比如平方关系、对数关系等。
-
完全相关:
- 若 Corr(X,Y)=1\operatorname{Corr}(X, Y) = 1Corr(X,Y)=1,则称 XXX 与 YYY 完全正相关
- 若 Corr(X,Y)=−1\operatorname{Corr}(X, Y) = -1Corr(X,Y)=−1,则称 XXX 与 YYY 完全负相关
-
部分相关:若 0<∣Corr(X,Y)∣<10 < |\operatorname{Corr}(X, Y)| < 10<∣Corr(X,Y)∣<1,则称 XXX 与 YYY 有"一定程度"的线性关系。
- ∣Corr(X,Y)∣|\operatorname{Corr}(X, Y)|∣Corr(X,Y)∣ 越接近于 1,则线性相关程度越高
- ∣Corr(X,Y)∣|\operatorname{Corr}(X, Y)|∣Corr(X,Y)∣ 越接近于 0,则线性相关程度越低
而协方差看不出这一点。若协方差很小,而其两个标准差 σX\sigma_XσX 和 σY\sigma_YσY 也很小,则其比值就不一定很小,这可从下面例 3.4.10 看出。
例 3.4.10
已知随机向量 (X,Y)(X, Y)(X,Y) 的联合密度函数为
p(x,y)={83,0<x−y<0.5, 0<x,y<10,其他p(x, y) = \begin{cases} \frac{8}{3}, & 0 < x - y < 0.5, \; 0 < x, y < 1 \\ 0, & \text{其他} \end{cases}p(x,y)={38,0,0<x−y<0.5,0<x,y<1其他
求 X,YX, YX,Y 的相关系数 Corr(X,Y)\operatorname{Corr}(X, Y)Corr(X,Y)。
解
先计算两个边际密度函数。
求 XXX 的边际密度函数:
当 0<x<0.50 < x < 0.50<x<0.5 时,
pX(x)=∫−∞∞p(x,y) dy=∫0x83 dy=83xp_X(x) = \int_{-\infty}^{\infty} p(x, y) \, dy = \int_0^x \frac{8}{3} \, dy = \frac{8}{3}xpX(x)=∫−∞∞p(x,y)dy=∫0x38dy=38x
当 0.5<x<10.5 < x < 10.5<x<1 时,
pX(x)=∫−∞∞p(x,y) dy=∫x−0.5x83 dy=43p_X(x) = \int_{-\infty}^{\infty} p(x, y) \, dy = \int_{x-0.5}^x \frac{8}{3} \, dy = \frac{4}{3}pX(x)=∫−∞∞p(x,y)dy=∫x−0.5x38dy=34
所以得 XXX 的边际密度函数为
pX(x)={83x,0<x<0.543,0.5<x<10,其他p_X(x) = \begin{cases} \frac{8}{3}x, & 0 < x < 0.5 \\ \frac{4}{3}, & 0.5 < x < 1 \\ 0, & \text{其他} \end{cases}pX(x)=⎩ ⎨ ⎧38x,34,0,0<x<0.50.5<x<1其他
求 YYY 的边际密度函数:
当 0<y<0.50 < y < 0.50<y<0.5 时,
pY(y)=∫−∞∞p(x,y) dx=∫yy+0.583 dx=43p_Y(y) = \int_{-\infty}^{\infty} p(x, y) \, dx = \int_y^{y+0.5} \frac{8}{3} \, dx = \frac{4}{3}pY(y)=∫−∞∞p(x,y)dx=∫yy+0.538dx=34
当 0.5<y<10.5 < y < 10.5<y<1 时,
pY(y)=∫−∞∞p(x,y) dx=∫y183 dx=83(1−y)p_Y(y) = \int_{-\infty}^{\infty} p(x, y) \, dx = \int_y^1 \frac{8}{3} \, dx = \frac{8}{3}(1-y)pY(y)=∫−∞∞p(x,y)dx=∫y138dx=38(1−y)
所以得 YYY 的边际密度函数为
pY(y)={43,0<y<0.583(1−y),0.5<y<10,其他p_Y(y) = \begin{cases} \frac{4}{3}, & 0 < y < 0.5 \\ \frac{8}{3}(1-y), & 0.5 < y < 1 \\ 0, & \text{其他} \end{cases}pY(y)=⎩ ⎨ ⎧34,38(1−y),0,0<y<0.50.5<y<1其他
计算一、二阶矩:
E(X)=∫00.583x2 dx+∫0.5143x dx=1118E(Y)=∫00.543y dy+∫0.5183y(1−y) dy=718E(X2)=∫00.583x3 dx+∫0.5143x2 dx=3172E(Y2)=∫00.543y2 dy+∫0.5183y2(1−y) dy=524\begin{align} E(X) &= \int_0^{0.5} \frac{8}{3} x^2 \, dx + \int_{0.5}^1 \frac{4}{3} x \, dx = \frac{11}{18} \\ E(Y) &= \int_0^{0.5} \frac{4}{3} y \, dy + \int_{0.5}^1 \frac{8}{3} y(1-y) \, dy = \frac{7}{18} \\ E(X^2) &= \int_0^{0.5} \frac{8}{3} x^3 \, dx + \int_{0.5}^1 \frac{4}{3} x^2 \, dx = \frac{31}{72} \\ E(Y^2) &= \int_0^{0.5} \frac{4}{3} y^2 \, dy + \int_{0.5}^1 \frac{8}{3} y^2(1-y) \, dy = \frac{5}{24} \end{align}E(X)E(Y)E(X2)E(Y2)=∫00.538x2dx+∫0.5134xdx=1811=∫00.534ydy+∫0.5138y(1−y)dy=187=∫00.538x3dx+∫0.5134x2dx=7231=∫00.534y2dy+∫0.5138y2(1−y)dy=245
计算方差:
Var(X)=3172−(1118)2=37648Var(Y)=524−(718)2=37648\begin{align} \operatorname{Var}(X) &= \frac{31}{72} - \left(\frac{11}{18}\right)^2 = \frac{37}{648} \\ \operatorname{Var}(Y) &= \frac{5}{24} - \left(\frac{7}{18}\right)^2 = \frac{37}{648} \end{align}Var(X)Var(Y)=7231−(1811)2=64837=245−(187)2=64837
计算 E(XY)E(XY)E(XY):
E(XY)=∫00.5∫0x83xy dy dx+∫0.51∫x−0.5x83xy dy dx=∫00.543x3 dx+∫0.5143x(x−14) dx=148+718−18=41144\begin{align} E(XY) &= \int_0^{0.5} \int_0^x \frac{8}{3} xy \, dy \, dx + \int_{0.5}^1 \int_{x-0.5}^x \frac{8}{3} xy \, dy \, dx \\ &= \int_0^{0.5} \frac{4}{3} x^3 \, dx + \int_{0.5}^1 \frac{4}{3} x\left(x - \frac{1}{4}\right) \, dx \\ &= \frac{1}{48} + \frac{7}{18} - \frac{1}{8} = \frac{41}{144} \end{align}E(XY)=∫00.5∫0x38xydydx+∫0.51∫x−0.5x38xydydx=∫00.534x3dx+∫0.5134x(x−41)dx=481+187−81=14441
最终结果:
Cov(X,Y)=41144−1118×718=611296=0.0471Corr(X,Y)=Cov(X,Y)σXσY=611296×64837=6174=0.8243\begin{align} \operatorname{Cov}(X, Y) &= \frac{41}{144} - \frac{11}{18} \times \frac{7}{18} = \frac{61}{1296} = 0.0471 \\ \operatorname{Corr}(X, Y) &= \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{61}{1296} \times \frac{648}{37} = \frac{61}{74} = 0.8243 \end{align}Cov(X,Y)Corr(X,Y)=14441−1811×187=129661=0.0471=σXσYCov(X,Y)=129661×37648=7461=0.8243
这里协方差很小,但其相关系数并不小。
分析
上例中,从相关系数 Corr(X,Y)=0.8243\operatorname{Corr}(X, Y) = 0.8243Corr(X,Y)=0.8243 看,XXX 与 YYY 有较高程度的正相关;但从相应的协方差 Cov(X,Y)=0.0471\operatorname{Cov}(X, Y) = 0.0471Cov(X,Y)=0.0471 看,XXX 与 YYY 的相关性很微弱,几乎可以忽略不计。
造成这种错觉的原因在于没有考虑标准差,若两个标准差都很小,即使协方差小一些,相关系数也能显示一定程度的相关性。由此可见,在协方差的基础上加工形成的相关系数是更为重要的相关性的特征数。
独立与不相关的关系
在一般场合,独立必导致不相关,但不相关推不出独立。但也有例外,下面的性质指出了这个例外。
性质 3.4.13
在二维正态分布 N(μ1,μ2,σ12,σ22,ρ)N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)N(μ1,μ2,σ12,σ22,ρ) 场合,不相关与独立是等价的。
证明
由上面例 3.4.9 知,二维正态分布 N(μ1,μ2,σ12,σ22,ρ)N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)N(μ1,μ2,σ12,σ22,ρ) 的相关系数是 ρ\rhoρ,因此我们只需证 ρ=0\rho = 0ρ=0 与独立是等价的。
因为二维正态分布 N(μ1,μ2,σ12,σ22,ρ)N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)N(μ1,μ2,σ12,σ22,ρ) 的两个边际分布为 N(μ1,σ12)N(\mu_1, \sigma_1^2)N(μ1,σ12) 和 N(μ2,σ22)N(\mu_2, \sigma_2^2)N(μ2,σ22),所以记其联合密度函数为 p(x,y)p(x, y)p(x,y),边际密度函数为 pX(x)p_X(x)pX(x) 与 pY(y)p_Y(y)pY(y)。
当 ρ=0\rho = 0ρ=0 时,可从正态密度函数的表达式中看出
p(x,y)=pX(x)pY(y)p(x, y) = p_X(x) p_Y(y)p(x,y)=pX(x)pY(y)
即 XXX 与 YYY 相互独立。
反之,若 XXX 与 YYY 相互独立,则 XXX 与 YYY 不相关,从而有 ρ=0\rho = 0ρ=0。
结论得证。
例 3.4.11 (投资组合的风险)
设有一笔资金,总量记为 1(可以是 1 万元,也可以是 100 万元等),如今要投资甲、乙两种证券。若将资金 x1x_1x1 投资于甲证券,将余下的资金 1−x1=x21 - x_1 = x_21−x1=x2 投资于乙证券,于是 (x1,x2)(x_1, x_2)(x1,x2) 就形成了一个投资组合。
记 XXX 为投资甲证券的收益率,YYY 为投资乙证券的收益率,它们都是随机变量。如果已知 XXX 和 YYY 的均值(代表平均收益)分别为 μ1\mu_1μ1 和 μ2\mu_2μ2,方差(代表风险)分别为 σ12\sigma_1^2σ12 和 σ22\sigma_2^2σ22,XXX 和 YYY 间的相关系数为 ρ\rhoρ。
试求该投资组合的平均收益与风险(方差),并求使投资组合风险最小的 x1x_1x1 是多少?
解
因为组合收益为
Z=x1X+x2Y=x1X+(1−x1)YZ = x_1 X + x_2 Y = x_1 X + (1 - x_1) YZ=x1X+x2Y=x1X+(1−x1)Y
所以该组合的平均收益为
E(Z)=x1E(X)+(1−x1)E(Y)=x1μ1+(1−x1)μ2E(Z) = x_1 E(X) + (1 - x_1) E(Y) = x_1 \mu_1 + (1 - x_1) \mu_2E(Z)=x1E(X)+(1−x1)E(Y)=x1μ1+(1−x1)μ2
而该组合的风险(方差)为
Var(Z)=Var[x1X+(1−x1)Y]=x12Var(X)+(1−x1)2Var(Y)+2x1(1−x1)Cov(X,Y)=x12σ12+(1−x1)2σ22+2x1(1−x1)ρσ1σ2\begin{align} \operatorname{Var}(Z) &= \operatorname{Var}[x_1 X + (1 - x_1) Y] \\ &= x_1^2 \operatorname{Var}(X) + (1 - x_1)^2 \operatorname{Var}(Y) + 2x_1(1 - x_1) \operatorname{Cov}(X, Y) \\ &= x_1^2 \sigma_1^2 + (1 - x_1)^2 \sigma_2^2 + 2x_1(1 - x_1) \rho \sigma_1 \sigma_2 \end{align}Var(Z)=Var[x1X+(1−x1)Y]=x12Var(X)+(1−x1)2Var(Y)+2x1(1−x1)Cov(X,Y)=x12σ12+(1−x1)2σ22+2x1(1−x1)ρσ1σ2
求最小的组合风险,即求 Var(Z)\operatorname{Var}(Z)Var(Z) 关于 x1x_1x1 的极小点,为此令
d(Var(Z))dx1=2x1σ12−2(1−x1)σ22+2ρσ1σ2−4x1ρσ1σ2=0\frac{d(\operatorname{Var}(Z))}{dx_1} = 2x_1 \sigma_1^2 - 2(1 - x_1) \sigma_2^2 + 2\rho \sigma_1 \sigma_2 - 4x_1 \rho \sigma_1 \sigma_2 = 0dx1d(Var(Z))=2x1σ12−2(1−x1)σ22+2ρσ1σ2−4x1ρσ1σ2=0
从中解得
x1∗=σ22−ρσ1σ2σ12+σ22−2ρσ1σ2x_1^* = \frac{\sigma_2^2 - \rho \sigma_1 \sigma_2}{\sigma_1^2 + \sigma_2^2 - 2\rho \sigma_1 \sigma_2}x1∗=σ12+σ22−2ρσ1σ2σ22−ρσ1σ2
它与 μ1,μ2\mu_1, \mu_2μ1,μ2 无关。又因为 Var(Z)\operatorname{Var}(Z)Var(Z) 中 x12x_1^2x12 的系数为正,所以以上的 x1∗x_1^*x1∗ 可使组合风险达到最小。
数值例子:比如,σ12=0.3\sigma_1^2 = 0.3σ12=0.3,σ22=0.5\sigma_2^2 = 0.5σ22=0.5,ρ=0.4\rho = 0.4ρ=0.4,则
x1∗=0.5−0.40.3×0.50.3+0.5−2×0.40.3×0.5=0.704x_1^* = \frac{0.5 - 0.4\sqrt{0.3 \times 0.5}}{0.3 + 0.5 - 2 \times 0.4\sqrt{0.3 \times 0.5}} = 0.704x1∗=0.3+0.5−2×0.40.3×0.50.5−0.40.3×0.5=0.704
这说明应把全部资金的 70% 投资于甲证券,而把余下的 30% 资金投向乙证券,这样的投资组合风险最小。
3.4.5 随机向量的数学期望向量与协方差矩阵
以下我们用矩阵形式给出 nnn 维随机变量的数学期望与方差。
定义 3.4.3
记 nnn 维随机向量为 X=(X1,X2,⋯ ,Xn)′\boldsymbol{X} = (X_1, X_2, \cdots, X_n)'X=(X1,X2,⋯,Xn)′,若其每个分量的数学期望都存在,则称
E(X)=(E(X1),E(X2),⋯ ,E(Xn))′E(\boldsymbol{X}) = (E(X_1), E(X_2), \cdots, E(X_n))'E(X)=(E(X1),E(X2),⋯,E(Xn))′
为 nnn 维随机向量 X\boldsymbol{X}X 的数学期望向量,简称为 X\boldsymbol{X}X 的数学期望,而称
E[(X−E(X))(X−E(X))′]=(Var(X1)Cov(X1,X2)⋯Cov(X1,Xn)Cov(X2,X1)Var(X2)⋯Cov(X2,Xn)⋮⋮⋮Cov(Xn,X1)Cov(Xn,X2)⋯Var(Xn))\begin{align} &E[(\boldsymbol{X} - E(\boldsymbol{X}))(\boldsymbol{X} - E(\boldsymbol{X}))'] \\ &= \begin{pmatrix} \operatorname{Var}(X_1) & \operatorname{Cov}(X_1, X_2) & \cdots & \operatorname{Cov}(X_1, X_n) \\ \operatorname{Cov}(X_2, X_1) & \operatorname{Var}(X_2) & \cdots & \operatorname{Cov}(X_2, X_n) \\ \vdots & \vdots & & \vdots \\ \operatorname{Cov}(X_n, X_1) & \operatorname{Cov}(X_n, X_2) & \cdots & \operatorname{Var}(X_n) \end{pmatrix} \end{align}E[(X−E(X))(X−E(X))′]= Var(X1)Cov(X2,X1)⋮Cov(Xn,X1)Cov(X1,X2)Var(X2)⋮Cov(Xn,X2)⋯⋯⋯Cov(X1,Xn)Cov(X2,Xn)⋮Var(Xn)
为该随机向量的方差-协方差矩阵,简称协方差阵,记为 Cov(X)\operatorname{Cov}(\boldsymbol{X})Cov(X)。
至此我们可以看出,nnn 维随机向量的数学期望是各分量的数学期望组成的向量。而其方差就是由各分量的方差与协方差组成的矩阵,其对角线上的元素就是方差,非对角线元素为协方差。
定理 3.4.2
nnn 维随机向量的协方差矩阵 Cov(X)=(Cov(Xi,Xj))n×n\operatorname{Cov}(\boldsymbol{X}) = (\operatorname{Cov}(X_i, X_j))_{n \times n}Cov(X)=(Cov(Xi,Xj))n×n 是一个对称的非负定矩阵。
证明
因为 Cov(Xi,Xj)=Cov(Xj,Xi)\operatorname{Cov}(X_i, X_j) = \operatorname{Cov}(X_j, X_i)Cov(Xi,Xj)=Cov(Xj,Xi),所以对称性是显然的。
下证非负定性。因为对任意的 nnn 维实向量 c=(c1,c2,⋯ ,cn)′\boldsymbol{c} = (c_1, c_2, \cdots, c_n)'c=(c1,c2,⋯,cn)′,有
c′Cov(X)c=(c1,c2,⋯ ,cn)(Var(X1)⋯Cov(X1,Xn)Cov(X2,X1)⋯Cov(X2,Xn)⋮⋮Cov(Xn,X1)⋯Var(Xn))(c1c2⋮cn)=∑i=1n∑j=1ncicjCov(Xi,Xj)=∑i=1n∑j=1nE{[ci(Xi−E(Xi))][cj(Xj−E(Xj))]}=E{∑i=1n∑j=1n[ci(Xi−E(Xi))][cj(Xj−E(Xj))]}=E{[∑i=1nci(Xi−E(Xi))][∑j=1ncj(Xj−E(Xj))]}=E[∑i=1nci(Xi−E(Xi))]2≥0\begin{align} \boldsymbol{c}' \operatorname{Cov}(\boldsymbol{X}) \boldsymbol{c} &= (c_1, c_2, \cdots, c_n) \begin{pmatrix} \operatorname{Var}(X_1) & \cdots & \operatorname{Cov}(X_1, X_n) \\ \operatorname{Cov}(X_2, X_1) & \cdots & \operatorname{Cov}(X_2, X_n) \\ \vdots & & \vdots \\ \operatorname{Cov}(X_n, X_1) & \cdots & \operatorname{Var}(X_n) \end{pmatrix} \begin{pmatrix} c_1 \\ c_2 \\ \vdots \\ c_n \end{pmatrix} \\ &= \sum_{i=1}^n \sum_{j=1}^n c_i c_j \operatorname{Cov}(X_i, X_j) \\ &= \sum_{i=1}^n \sum_{j=1}^n E\{[c_i(X_i - E(X_i))][c_j(X_j - E(X_j))]\} \\ &= E\left\{\sum_{i=1}^n \sum_{j=1}^n [c_i(X_i - E(X_i))][c_j(X_j - E(X_j))]\right\} \\ &= E\left\{\left[\sum_{i=1}^n c_i(X_i - E(X_i))\right]\left[\sum_{j=1}^n c_j(X_j - E(X_j))\right]\right\} \\ &= E\left[\sum_{i=1}^n c_i(X_i - E(X_i))\right]^2 \geq 0 \end{align}c′Cov(X)c=(c1,c2,⋯,cn) Var(X1)Cov(X2,X1)⋮Cov(Xn,X1)⋯⋯⋯Cov(X1,Xn)Cov(X2,Xn)⋮Var(Xn) c1c2⋮cn =i=1∑nj=1∑ncicjCov(Xi,Xj)=i=1∑nj=1∑nE{[ci(Xi−E(Xi))][cj(Xj−E(Xj))]}=E{i=1∑nj=1∑n[ci(Xi−E(Xi))][cj(Xj−E(Xj))]}=E{[i=1∑nci(Xi−E(Xi))][j=1∑ncj(Xj−E(Xj))]}=E[i=1∑nci(Xi−E(Xi))]2≥0
所以矩阵 Cov(X)\operatorname{Cov}(\boldsymbol{X})Cov(X) 是非负定的,定理得证。
例 3.4.12 (nnn 元正态分布)
设 nnn 维随机变量 X=(X1,X2,⋯ ,Xn)′\boldsymbol{X} = (X_1, X_2, \cdots, X_n)'X=(X1,X2,⋯,Xn)′ 的协方差矩阵 B=Cov(X)\boldsymbol{B} = \operatorname{Cov}(\boldsymbol{X})B=Cov(X) 是正定的,数学期望向量为 a=(a1,a2,⋯ ,an)′\boldsymbol{a} = (a_1, a_2, \cdots, a_n)'a=(a1,a2,⋯,an)′。
又记 x=(x1,x2,⋯ ,xn)′\boldsymbol{x} = (x_1, x_2, \cdots, x_n)'x=(x1,x2,⋯,xn)′,则由密度函数
p(x1,x2,⋯ ,xn)=p(x)=1(2π)n2∣B∣12exp{−12(x−a)′B−1(x−a)}(3.4.13)p(x_1, x_2, \cdots, x_n) = p(\boldsymbol{x}) = \frac{1}{(2\pi)^{\frac{n}{2}}|\boldsymbol{B}|^{\frac{1}{2}}} \exp\left\{-\frac{1}{2}(\boldsymbol{x} - \boldsymbol{a})' \boldsymbol{B}^{-1} (\boldsymbol{x} - \boldsymbol{a})\right\} \tag{3.4.13}p(x1,x2,⋯,xn)=p(x)=(2π)2n∣B∣211exp{−21(x−a)′B−1(x−a)}(3.4.13)
定义的分布称为 nnn 元正态分布,记为 X∼N(a,B)\boldsymbol{X} \sim N(\boldsymbol{a}, \boldsymbol{B})X∼N(a,B)。
其中:
- ∣B∣|\boldsymbol{B}|∣B∣ 表示 B\boldsymbol{B}B 的行列式
- B−1\boldsymbol{B}^{-1}B−1 表示 B\boldsymbol{B}B 的逆阵
- (x−a)′(\boldsymbol{x} - \boldsymbol{a})'(x−a)′ 表示向量 (x−a)(\boldsymbol{x} - \boldsymbol{a})(x−a) 的转置
若记 B−1=(rij)\boldsymbol{B}^{-1} = (r_{ij})B−1=(rij),则 (3.4.13) 式可写成
p(x1,x2,⋯ ,xn)=1(2π)n2∣B∣12exp{−12∑i,j=1nrij(xi−ai)(xj−aj)}p(x_1, x_2, \cdots, x_n) = \frac{1}{(2\pi)^{\frac{n}{2}}|\boldsymbol{B}|^{\frac{1}{2}}} \exp\left\{-\frac{1}{2} \sum_{i,j=1}^n r_{ij}(x_i - a_i)(x_j - a_j)\right\}p(x1,x2,⋯,xn)=(2π)2n∣B∣211exp{−21i,j=1∑nrij(xi−ai)(xj−aj)}
二元正态分布的特例
在 n=2n = 2n=2 的场合,若取数学期望向量和协方差矩阵分别为
a=(μ1μ2),B=(σ12σ1σ2ρσ1σ2ρσ22)\boldsymbol{a} = \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \quad \boldsymbol{B} = \begin{pmatrix} \sigma_1^2 & \sigma_1 \sigma_2 \rho \\ \sigma_1 \sigma_2 \rho & \sigma_2^2 \end{pmatrix}a=(μ1μ2),B=(σ12σ1σ2ρσ1σ2ρσ22)
代入 (3.4.13) 式,则可得到 (3.1.8) 式给出的二元正态密度函数。
重要性
nnn 元正态分布是一种最重要的多维分布,它在概率论、数理统计和随机过程中都占有重要地位。
更多推荐
所有评论(0)