1.4 多元数据的矩阵表示及变换_心理与教育研究中的多元统计方法-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

1.4　多元数据的矩阵表示及变换

1.4.1　观测数据

多元数据的结构一般如表1.2所示，Xij表示第i个个体的关于第j个变量的观测数据或观察值，观测数据既可以是连续型数据，也可以是离散型数据。

表1.2　多变量数据的一般形式

统计学中将这种数据结构用矩阵表示为：

在数据矩阵中通常不同的行对应不同的个体（获取数据的观测对象），不同的列对应不同的变量（对个体进行观测的指标）。矩阵（1.1）就是一张n行p列的数表，记为X或。

行数n=1时，X便退化为一个行向量（1×p的矩阵）。行向量一般记为

式中i表示第i个记录，等号右边括号内就是第i个个体关于p个变量的p个观测数据。

X的列数p=1时，X便退化为一个列向量（n×1的矩阵）。列向量一般记为

式中Xj表示第j个变量的全体n个观测数据。有时等号右边的分量下标j可以省略。

为了简化书写，亦可用加上转置符号“T”，以行向量表示列向量，记为

向量Xj的长度，就是它的内积（各分量平方和）的正平方根，或称为向量Xj的模，记作｜Xj｜，即

这里表示变量Xj的一组观测数据的总和，n为样本量。

1.4.2　数据的中心化

某一变量的各个观测值减去该变量全体观测值的平均值，所得到的差称为各个观测值的离均值，即

离均值=观测值-平均值，

观测值的离均值矩阵Xc为

式中

是变量Xj的平均值，j=1，2，……，p。

例如，多元数据表1.1（a）中被试1的语文离均值是其语文分数与语文分平均值之差，即

72-83.3=-11.3，

用同样的方法，我们可以得到该表中每个被试的各科成绩的离均值（参见表1.3）。

表1.3　多元变量数据的离均值

多元数据无论包含多少个变量，样本量有多大，各变量离均值的平均值均为0。这种将原始数据变成离均值的变换称为数据的中心化，其特点是让0成为新观测值（离均值）的中心。图1.3（a）为表1.1（a）中语文与数学成绩观测值的散点图，图1.3（b）为语文与数学成绩离均值的散点图。图中每个点代表一个被试，点的位置由各个被试的语文和数学成绩（或离均值）决定。从图中可知，数据的中心化只是使数轴产生了平移，并不改变数据的散布状态，即不改变数据之间的相对位置。

1.4.3　数据的标准化

图1.3　语文与数学成绩的散点图

变量的全体观测值分别减去该变量的平均值后再除以其标准差，所得的数值称为该变量的标准分，即

标准分=（观测值-平均值）/标准差，

这种数据变换称为数据的标准化。

标准分矩阵Z可表示为

式中Sj为第j个变量的标准差

在实际应用中，常常用无偏标准差

来计算标准分，无偏标准差的平方为无偏方差。例如，表1.1（a）中语文的无偏方差为58.68，被试1的语文成绩的无偏标准分为

用同样方法，我们可以得到表1.1（a）中每个被试的各科成绩的标准分（参见表1.4）。用无偏标准差对变量进行标准化后，标准分矩阵中的新变量平均值为0，且无偏方差为1（方差略小于1）。

表1.4　多元变量数据的标准分

由上可知，数据标准化的特点是让不同平均值、不同方差的原始变量都变换成平均值为0、方差相等（或都为1）的新变量。当标准分为正值时，说明该个体的观测值大于平均值；当标准分为负值时，该个体的观测值小于平均值。标准分的绝对值越大，则说明原始数据偏离平均值的距离越远。数据标准化以后统一了各原始变量的方差，例如散点图1.4（a）是表1.1（a）语文、英语两科原始分数的散点图，显然数据在横轴上的散布度比纵轴的大得多（语文的标准差是英语的1.6倍），但是在图1.4（b）的两科标准分散点图中，纵、横两轴上的散布程度就一致了。

图1.4　语文与英语的散点图

对数据进行标准化处理，有助于变量内部的比较与解释。以表1.4为例，在语文标准分中水平最高的是6号被试，他的成绩高于平均值约有1.5个标准差，与1号被试相比较，两人的差距达3个标准差。如果知道三科分数的统计分布的话，不但可以了解某学生的各科成绩在总体中的位置，还可以进行更为精细的横向比较。但是必须注意到标准分虽然统一了各变量的平均值与方差，但失去了原始数据的平均值与方差等信息。如果手头仅有各变量的标准分，是无法变回到原始分数的。