
1.4 多元数据的矩阵表示及变换
1.4.1 观测数据
多元数据的结构一般如表1.2所示,Xij表示第i个个体的关于第j个变量的观测数据或观察值,观测数据既可以是连续型数据,也可以是离散型数据。
表1.2 多变量数据的一般形式

统计学中将这种数据结构用矩阵表示为:

在数据矩阵中通常不同的行对应不同的个体(获取数据的观测对象),不同的列对应不同的变量(对个体进行观测的指标)。矩阵(1.1)就是一张n行p列的数表,记为X或。
行数n=1时,X便退化为一个行向量(1×p的矩阵)。行向量一般记为

式中i表示第i个记录,等号右边括号内就是第i个个体关于p个变量的p个观测数据。
X的列数p=1时,X便退化为一个列向量(n×1的矩阵)。列向量一般记为

式中Xj表示第j个变量的全体n个观测数据。有时等号右边的分量下标j可以省略。
为了简化书写,亦可用加上转置符号“T”,以行向量表示列向量,记为

向量Xj的长度,就是它的内积(各分量平方和)的正平方根,或称为向量Xj的模,记作|Xj|,即

这里表示变量Xj的一组观测数据的总和,n为样本量。
1.4.2 数据的中心化
某一变量的各个观测值减去该变量全体观测值的平均值,所得到的差称为各个观测值的离均值,即
离均值=观测值-平均值,
观测值的离均值矩阵Xc为

式中

是变量Xj的平均值,j=1,2,……,p。
例如,多元数据表1.1(a)中被试1的语文离均值是其语文分数与语文分平均值之差,即
72-83.3=-11.3,
用同样的方法,我们可以得到该表中每个被试的各科成绩的离均值(参见表1.3)。
表1.3 多元变量数据的离均值

多元数据无论包含多少个变量,样本量有多大,各变量离均值的平均值均为0。这种将原始数据变成离均值的变换称为数据的中心化,其特点是让0成为新观测值(离均值)的中心。图1.3(a)为表1.1(a)中语文与数学成绩观测值的散点图,图1.3(b)为语文与数学成绩离均值的散点图。图中每个点代表一个被试,点的位置由各个被试的语文和数学成绩(或离均值)决定。从图中可知,数据的中心化只是使数轴产生了平移,并不改变数据的散布状态,即不改变数据之间的相对位置。

1.4.3 数据的标准化
图1.3 语文与数学成绩的散点图
变量的全体观测值分别减去该变量的平均值后再除以其标准差,所得的数值称为该变量的标准分,即
标准分=(观测值-平均值)/标准差,
这种数据变换称为数据的标准化。
标准分矩阵Z可表示为

式中Sj为第j个变量的标准差

在实际应用中,常常用无偏标准差

来计算标准分,无偏标准差的平方为无偏方差。例如,表1.1(a)中语文的无偏方差为58.68,被试1的语文成绩的无偏标准分为

用同样方法,我们可以得到表1.1(a)中每个被试的各科成绩的标准分(参见表1.4)。用无偏标准差对变量进行标准化后,标准分矩阵中的新变量平均值为0,且无偏方差为1(方差略小于1)。
表1.4 多元变量数据的标准分

由上可知,数据标准化的特点是让不同平均值、不同方差的原始变量都变换成平均值为0、方差相等(或都为1)的新变量。当标准分为正值时,说明该个体的观测值大于平均值;当标准分为负值时,该个体的观测值小于平均值。标准分的绝对值越大,则说明原始数据偏离平均值的距离越远。数据标准化以后统一了各原始变量的方差,例如散点图1.4(a)是表1.1(a)语文、英语两科原始分数的散点图,显然数据在横轴上的散布度比纵轴的大得多(语文的标准差是英语的1.6倍),但是在图1.4(b)的两科标准分散点图中,纵、横两轴上的散布程度就一致了。

图1.4 语文与英语的散点图
对数据进行标准化处理,有助于变量内部的比较与解释。以表1.4为例,在语文标准分中水平最高的是6号被试,他的成绩高于平均值约有1.5个标准差,与1号被试相比较,两人的差距达3个标准差。如果知道三科分数的统计分布的话,不但可以了解某学生的各科成绩在总体中的位置,还可以进行更为精细的横向比较。但是必须注意到标准分虽然统一了各变量的平均值与方差,但失去了原始数据的平均值与方差等信息。如果手头仅有各变量的标准分,是无法变回到原始分数的。