但协方差的取值受两个变量各自的量纲影响,数字的意义并不明显,我们只知道独立的随机变量,协方差为零,其他的关系呢?无法从协方差的数字中直接读出。
本日我们将提出一种方法,对协方差进行无量纲化的改动。会有什么样的结果呢?
我们采取的方法便是对变量进行标准化处理。

如果随机变量X的方差DX存在,且DX>0,则称
X= (X-EX)/√DX为X的标准化随机变量。我们看到标准化处理便是对原随机变量减其期望再除上其根方差。
由期望方差的运算性子我们可得:
EX=0
D X=1
数值如此大略,难怪X被称为标准化变量。
通过标准化处理任意的随机变量,都转换成了期望为零,方差为1的标准化变量。
标准化的目的便是肃清量纲希望以及方差的不同,对数据比较所造成的影响。
1.2标准分的运用在综合评价中,标准分便是一个主要指标。
例如某次考试后,语文和数学的成绩都为均值80的正态分布。
但语文的方差为9,数学的方差为4;甲同学语文80分,数学86分。乙同学数学80分,语文86分。
从总分来看,两人总分相同。叨教你以为他们的能力是否也相同呢?两个86分,由正态分布的3σ原则,数学的86分是不是更加不易?是不是较语文的86分含金量更高?如何表示这种差异呢?对了,标准化处理。
我们分别打算两个86分对应的标准化成绩。
y^=(86-80)/3=2;
x^=(86-80)/2=3
减期望再除上根方差,数学的标准分就比语文的标准分高,而纯挚的总分没能表示出这样的差别。
以是标准化的思想在综合评价中,特殊是分布差异较大的指标时,是一个主要的处理方案。
二、干系系数2.1干系系数的取值既然随机变量标准化后,肃清了量纲上的差异。那标准化变量X与Y的协方差便是两个变量二维特色的实质表示。
我们称X与Y的协方差为原变量X 与Y 的干系系数。
即为ρ(X,Y)=cov(X,Y)。
由协方差的运算性子:
那干系系数能不能较好的反响随机变量x 与y 之间的关系呢?我们来研究一下干系系数的性子。
干系系数的取值在-1到1之间。
证明:
令X= (X-EX)/√DX,Y= (Y-EY)/√DY,则
由于X与Y都是标准化变量,方差为1,协方差即为干系系数ρ(X,Y)。
由于方差总是大于即是0的,以是解不等式有2ρ(X,Y)≥-1;
同情由差的方差公式:
解不等式2ρ(X,Y)≤1。
从这个性子之干系系数取值以零为中央,旁边对称,以±1为界。
2.2干系系数的含义那干系系数取不同的值都代表了什么意思呢?
ρ(X,Y)即是±1的充要条件为X与Y 以概率为1完备线性干系。
即 Y与X有线性的函数关系:
证明:
从刚才性子一的证明过程之干系系数即是1时,等价于D(X-Y)=0
而方差为零的变量将以概率1取值于他的期望。
由于X与Y为标准化变量,以是X-Y的期望为零,即以概率1有X-Y即是零。
P{ X-Y=0}=1即X=Y
P((X-EX)/√DX=(Y-EY)/√DY)=1,即=(X-EX)/√DX = (Y-EY)/√DY
同理,当ρ(X,Y)即是-1时。等价的有P{ X=-Y}=1。
表明ρ(X,Y)绝对值即是1时,X 与Y 具有最大的线性干系关系。
ρ(X,Y)=1时:
Y可以表示为X 的斜率为正的线性函数。
ρ(X,Y)=-1时:
Y 可以表示为X 的斜率为负的线性函数。
ρ(X,Y)=0时,表示X 与Y 没有一点儿线性干系的关系,称为X 与Y不线性干系。
ρ(X,Y) 不即是零时,表示X 与Y有部分的线性干系性,称X 与Y线性干系。个中,若大于零为正干系若小于零为负干系。ρ(X,Y)的绝对值的大小反响了干系性程度的大小。如越靠近于1。表示Y 越靠近于X 的正系数的线性表达;如越靠近于-1表示Y越靠近于Y 的负系数的线性表达。若越靠近于零,表示Y 与X 的线性表达程度越来越弱,直到完备没有线性关系。
2.3干系系数和变量独立
X与Y·1 独立则协方差为零,从而干系系数也为零。以是独立则不干系,反之则不然。虽然X与Y不干系,不具有线性关系,但可能存在非线性的关联,那就不是独立的了,以是独立与不干系,并不等价。
但正态分布是一个特例,独立与不干系是等价的。
对付二维正态随机变量
(X、Y)~N(μ1,μ2,σ12,σ22,ρ),个中中的参数ρ,可以证明它便是X、Y 的干系系数。
由二维正态分布的性子。X、Y独立的主要条件是ρ即是零,即X、Y不干系。