-
第一章认识SPSS
简要概述SPSS
-
●1.1SPSS软件发展历程
SPSS发展历程介绍
-
●1.2SPSS软件常用窗口介绍
SPSS软件的常用窗口主要有四个,即数据编辑窗口、输出窗口、语句窗口和图形编辑窗口。对于初学者或非专业用户主要会用到数据编辑窗口、输出窗口和图形编辑窗口三个主要窗口。
-
●1.3SPSS的三种运行管理方式
SPSS为用户提供了三种运行管理方式,即完全窗口菜单运行方式、程序运行方式和混合运行方式。用户可根据不同的分析需求选择使用。
-
第二章SPSS数据文件的建立与编辑
在统计分析工作中,搜集的数据资料要借助计算机及相应软件进行分析,首先必须将这些数据资料输入计算机,产生相应的数据文件,因此建立数据文件是进行统计分析的基础工作。本章主要介绍由SPSS软件自建数据文件的过程和编辑,以及如何读取常见格式数据文件的操作。
-
●2.1自建立数据文件
自建立数据文件包括定义变量结构属性、数据录入和数据编辑。
-
●2.2导入外部数据文件
在利用各种统计工具进行数据处理和统计工作的过程中,由于软件工具的差异,数据的存储格式会有很大的不同。不同的统计工具读入不同的数据文件的格式也会不同。SPSS软件提供了多种不同数据格式的读取和保存方式,甚者可以从不同格式的文本文件中方便地读取数据;另一方面,经SPSS软件处理的数据也可以保存为其他格式的数据文件。
-
第三章SPSS数据整理
通常情况下,刚刚建立的数据文件并不一定能立即供统计分析使用,还需要进行进一步的加工、整理,使之更加科学、系统、合理。这项工作在统计学中称之为统计整理。统计整理是统计工作的一个非常重要的环节,直接关系到统计分析的结果。本讲主要介绍SPSS提供的数据整理方面的一些常用基本功能。主要是SPSS主窗口中的【数据】菜单下的各项常用功能。
-
●3.1定义变量属性
定义变量属性可以在对数据扫描后显示并设定变量的各种属性。其主要功能包括扫描实际的数据值并列出每一个被选变量所有的唯一值;识别无标签的数值并提供“自动标签”功能;从另一个变量复制属性到被选变量或从被选变量复制属性到其他变量。
-
●3.2复制数据属性
复制数据属性是只将一个文件中的变量属性复制给另一个文件,而不复制数据。
-
●3.3定义日期
定义日期是指对时间序列数据创建时间和日期变量。即使有些时间序列数据含有日期变量,但也必须通过定义日期来创建新的日期变量进行分析,否则软件无法识别。
-
●3.4标识重复个案
有时用户在获取数据后,会出现多个个案重复的现象,这样的数据用于统计分析,会导致分析结果的偏离。因此标识出重复个案并将重复个案剔出,可以保证数据质量和分析结果的准确性。
-
●3.5排序个案
排序操作是数据整理中最常用的方法。通过排序可以很容易观察数据的基本特征。
-
●3.6转置
利用数据的转置功能可以将原数据文件中的行、列进行互换,将个案转变为变量,将变量转变为个案。转置结果系统将创建一个新的数据文件,并且自动地建立新的变量名显示各新变量列。
-
●3.7数据文件合并
SPSS中,数据文件合并指的是将一个外部数据文件的个案或变量增加到当前工作文件中将它们合并成一个文件。文件合并是文件整理的重要内容之一。
SPSS中提供了两种合并数据文件的方式:
个案合并,也称纵向合并。是在两个具有相同变量或部分相同变量的数据文件中,将其中一个数据文件的个案追加到当前数据文件的个案中,形成新的数据文件。
变量合并,也称横向合并。是在两个具有相同个案或部分相同个案的数据文件中,将其中一个数据文件的个案变量值追加至当前数据文件的相应个案中,形成新的数据文件。 -
●3.8分类汇总
数据的分类汇总是指将观测量按若干分组变量(或分类变量)进行分组,对每一组的变量值求其具有描述性的函数值(统计量值)。例如,将36名学生的“统计学”、“经济学”、“管理学”三科成绩,按照“性别”进行分组统计汇总。通过分类汇总了解总体内部的结构及其描述特征,如各组的均值、总和、百分比等,这项工作也是统计整理中的重要环节。
-
●3.9拆分文件
因为在SPSS许多分析方法菜单中并没有统计分组功能,文件的拆分相当于统计学中的数据分组,即将数据按一个或几个分组变量分成一些供统计分析的分组。
因此文件的拆分并不是将一个文件分成几个文件,文件拆分后启动一个对拆分后的各分组数据进行统计分析的过程,例如,对拆分后的数据文件进行描述统计、频数统计等,分析过程将按照拆分后的分组进行。 -
●3.10选择个案
一般记录在数据文件里的大量的数据资料,并不一定在分析过程中全部使用,有时要按照统计分析的要求选择符合条件的数据进行分析。SPSS提供了个案选择的功能。
-
●3.11加权个案
权重是统计学里的重要概念之一。所谓权重即同一个观测量值在大量观察和试验中出现的次数,或频数。在统计计算里常常需要对数据进行加权处理。
在记录有大量数据的文件里,可能多次测量到同一观测量值(变量值)。例如同年龄的人有许多个,这意味对不同的人,年龄变量的取值却是相同的。在建立数据文件时定义一个频数变量,也称为权变量,用它代表相同观测量出现的次数。
权变量是数值型变量,其取值不能为0、负数或缺失值,但可以是小数。
-
第四章 SPSS数据转换
在统计分析评价工作中,所获得的原始数据需要进行转换整理才能做出进一步的分析,例如学生成绩评价需要计算出每个学生的各科成绩平均值来评价。SPSS提供了非常方便的数据转换功能,包括计算新变量、重编码、离散化等数据转换整理功能。这些工作都可以应用SPSS的【转换】菜单中提供的各项功能来完成。
-
●4.1 SPSS基本运算
SPSS基本运算有:算术运算(即数学运算)、关系运算、逻辑运算。这些运算是通过相应的操作运算符来实现的。
-
●4.2计算变量
在建立好的数据文件中包含的数据可能大多来自统计调查的原始测量结果,对于复杂的统计分析问题,仅仅根据原始数据的变量值是不够的。有时需要利用已知变量产生新变量来进行统计分析。SPSS提供了强大的计算变量功能,新变量的计算可以利用“计算变量”对话框方便地求得。
-
●4.3对个案内的值计数
在数据分析时经常要分析每个个案中不同变量内的相同值出现的次数,SPSS提供计算个案内值的出现次数功能将很好地解决这一问题。计算个案内值的出现次数将创建一个变量,该变量统计每个个案的变量列表中相同值的出现次数。
-
●4.4重新编码
在统计分析中,经常会遇到为变量重新赋值或重新编码的问题。SPSS提供了重新编码为相同变量、重新编码为不同变量、自动重新编码等三个功能,可对数值型及字符型变量进行重新编码。
“重新编码为不同变量”与“重新编码为相同变量”差别就在于前者是重新建立新变量保存编码后的数据,后者是把编码后的数据覆盖到原变量下。因此,这里只介绍“重新编码为不同变量”和“自动重新编码”的应用。 -
●4.5可视离散化
可视离散化是对连续数值型变量进行分组,并产生一个新的分组变量。可用于根据连续变量创建一个分类变量,如个人收入的变量生成一个包含个人收入范围的分类变量;也可用于将多个有序的分类合并成少数的分类变量,如将一个9等级收入分组变量合并成包含低收入、中等收入、高收入三个等级的变量。
-
●4.6创建时间序列
时间序列是指观测或记录到的一列按时间顺序排列的统计数据。实际数据的时间序列展示了研究对象在一段时期内发展变化的过程,对时间序列的分析与研究,寻找现象内在的发展变化特征、趋势和规律是统计工作的重要内容之一。
建立包含时间或日期的数据文件,需要定义日期变量,这部分在第三章3.3节已介绍过,此处不再赘述。 -
●4.7替换缺失值
观测值缺失往往会给统计分析带来一些麻烦,尤其在时间序列分析中更是如此。时间序列里如果存在缺失的观测值(系统将数据文件数值型变量的缺失值以0对待),可能导致一些变量计算不能进行。因此有必要对时间序列里的缺失值做出替代处理,以保证统计计算和分析得以顺利进行。
-
第五章描述统计分析
在问题研究中,分析者对数据的分析通常是从基本描述统计分析入手的。通过描述统计分析,能够掌握数据的基本统计特征,把握数据的总体分布情况。并且描述统计分析的结论对于进一步数据建模和分析,会起到重要的指导和参考作用。
对数据的基本统计分析通常包括:频数分析、计算描述统计量、列联表分析和探索性分析。 -
●5.1频数分析
通常调查收集到的原始数据是有关个体的信息,是零散的、不系统的。而在研究问题中往往需要获取有关数据总体分布的信息,这就需要对原始数据进行频数分析,即对数据做分类、分组整理,并将整理结果以表格和图形显示出来。
频数分析的内容包括:
一是编制频数分布表,来显示数据分布特征及分布规律。
二是绘制统计图。统计图是一种最为直接、直观的刻画数据分布状况的方式。SPSS中对于分类和顺序数据,常用的统计图主要有条形图、饼图。数值型数据常用的统计图是直方图。 -
●5.2计算基本描述统计量
通过频数分析把握了数据的总体分布状况后,通常还需要对数值型数据的分布特征有更为精确的认识。这就需要通过计算描述统计量等途径实现。
常见的基本描述统计量大致可以分为三类:一是刻画数据集中趋势的描述统计量;二是刻画数据离散程度的描述统计量;三是刻画数据分布形态的描述统计量。通常,综合这三类统计量就能够准确和清晰地把握数据的分布特征。
集中趋势是指一组数据向其中心值靠拢的倾向和程度。测度集中趋势就是寻找数据水平的代表值或中心值。主要有三种集中趋势的测度方法:众数、中位数、均值。均值是集中趋势最常用的测度值。
离散程度是数据分布的另一个重要特征。是反映各变量值远离其中心值的程度(离散程度)。主要有以下几种测度方法:极差、方差、标准差等。
数据分布形态是指数据分布是否对称,偏斜程度如何,分布陡缓程度等。刻画分布形态的描述统计量主要有偏态系数和峰态系数。 -
●5.3列联表分析
通过频数分析能够掌握单个变量的数据分布情况。实际分析中,不仅要了解单变量的分布特征,还需要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响关系。
交叉分组下的频数分析又称列联表分析,它包括两大基本任务:一是根据收集到的样本数据编制交叉列联表;二是在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。
交叉列联表是两个或两个以上的变量,交叉分组后形成的频数分布表。编制交叉列联表是交叉分组下频数分析的第一个任务。
对交叉列联表中的行变量和列变量之间的关系进行分析,是交叉分组下频数分析的第二个任务。在列联表的基础上做进一步的分析,可以得到行变量与列变量之间是否有联系、联系的紧密程度如何等更深层次的信息。 -
●5.4探索分析
探索分析过程提供对已获取数据的考查,主要有以下两个方面:
第一,检查数据错误。过大或过小的数据均有可能是异常值、影响值点或是错误输入的数据。对于这样的数据第一要找出来,第二要分析原因,第三要决定是否从后续的分析中剔除。因为异常值和影响值点往往对分析结果影响较大,不能真实地反映数据的总体特征。
第二,检查数据分布特征。许多分析方法对数据的分布有一定要求,例如要求样本来自正态分布总体。实际获得的数据是否符合正态分布规律,决定了它们是否可以选用只对正态分布数据适用的分析方法。
-
第六章比较均值过程
在现实生活中,经常面临如下一些统计推断问题,如调查得来的样本能否认为是来自于某个确定均值的总体?两个或多个独立随机样本均值是否相等,从而对应总体分布特征是否一致?以上问题的解决可以通过均值比较来实现。
(1)单个样本的T检验过程,即根据样本观测值,检验正态总体的均值与指定的常数之间的差异程度,即检验零假设H₀:μ=μ₀。
(2)独立样本的T检验过程,检验两个独立样本是否是来自于具有相同均值的正态总体,即检验零假设H₀:μ₁-μ₂ =0。
(3)配对对样本的T检验过程,检验两个相关的样本是否是来自于具有相同均值的正态总体,其实质就是检验两个总体均值之差是否显著为零,检验零假设H₀:μ=μ₁-μ₂=0。
(4)单因素方差分析。多个样本均值是否相等的检验,具体内容见第七章。
均值比较问题是最常见的统计分析问题。推断统计学中,参数的假设检验以及单因素的方差分析两部分内容基本上都属于比较均值问题。 -
●6.1均值过程
均值过程实质是一个描述统计过程。其特点在于根据分组变量对需要描述的变量分别计算一系列描述统计量,它无需拆分文件,将各组描述结果同时输出,便于相互比较。
-
●6.2单样本T检验过程
单个样本的T检验过程,即根据单个样本观测值,检验其代表的正态总体的均值与指定的常数有无显著差异,即检验零假设H₀:μ=μ₀。
-
●6.3独立样本T检验过程
独立样本的T检验过程,是检验两个独立样本是否来自于具有相同均值的正态总体,可转化为两个总体均值之差的检验。零假设H₀:μ₁-μ₂=0 。
-
●6.4配对样本T检验过程
配对样本的T检验过程即检验两个相关的样本是否是来自于具有相同均值的正态总体,其实质就是检验两个总体均值之差是否显著为零,检验零假设H₀:μ=μ₁-μ₂=0。
-
第七章方差分析过程
一个复杂的事物,往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素、各因素之间的交互作用、以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术,对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和中分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。
方差分析的假定条件为:各处理条件下的样本是随机的;各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果;各处理条件下的样本分别来自正态分布总体,否则使用非参数分析;各处理条件下的样本方差相同,即具有方差齐性。
方差分析可分为单因素方差分析、多因素方差分析及协方差分析。 -
●7.1单因素方差分析
单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。是一种分析多组实验数据的统计方法,能够帮助我们从整体上辨别各组之间有无显著差异,而无需对不同组别,两两做多个t检验。
单因素方差分析的原假设:H₀:μ₁= μ₂= … = μk控制变量的不同水平的组均值都相等,即控制变量对因变量无影响。备择假设H₁:μ₁,μ₂,…,μk 不全相等。 -
●7.2单变量多因素方差分析
前面一节我们讨论的单因素方差分析,它的特点在于仅有一个控制变量会影响到因变量,现实世界远比这复杂,一个实验中同时会有多个不同因素影响到因变量,这就产生了多因素方差分析。多因素方差分析用来研究两个及两个以上控制变量是否对因变量产生显著影响。多因素方差分析不仅能够分析多个因素对因变量的独立影响,而且能够分析多个因素的交互作用能否对因变量产生显著影响。
-
第八章非参数检验
非参数统计是统计学的一个重要分支,它在实践中有着广泛的应用。所谓统计推断,就是由样本观察值去了解总体,它是统计学的基本任务之一。若根据经验或某种理论我们能在推断之前就对总体作一些假设,则这些假设无疑有助于提高统计推断的效率。这种情况下的统计方法称为“参数统计”。如果我们所知很少,以致于在推断之前不能对总体作任何假设,或仅能作一些非常一般性(例如连续分布、对称分布等)的假设,这时如果仍然使用参数统计方法,其统计推断的结果显然是不可信的,甚至有可能是错的。在对总体的分布不作假设或仅作非常一般性假设条件下的统计方法称为“非参数统计”。SPSS提供的【非参数检验】的菜单功能用于解决这类问题。
-
●8.1卡方检验
卡方检验(Chi-SquareTest)法,也称为卡方拟合优度检验(Chi-Square Goodness-of-Fit Test),它是K.Pearson给出的一种最常用的非参数检验方法,用于检验观测数据是否与某种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分布的样本的问题。
-
●8.2二项检验
二项分布即指数理统计的0-1分布。SPSS提供的二项检验过程用于对二元变量的两个分类的观测频数与某个具有确定的概率参数的二项分布的期望频数进行比较的假设检验问题。
二项检验过程要求检验变量必须是数值型的二元变量(只取两个可能值的变量)。假如变量不是二元变量,需要设置断点将数据分为两部分,将大于断点值的归为一组,其余归为另一组。 -
●8.3游程检验
游程检验是指根据游程数所作的两分变量的随机性检验,可用来检验样本的随机性,随机样本的游程数应不太大,也不太小。一个游程是指连续出现的相同符号的一个子序列。
-
●8.4单个样本K-S检验
柯尔莫哥洛夫-斯米尔诺夫检验(简称为K-S检验)基于累计分布函数,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。一般地说,柯尔莫哥洛夫—斯米尔诺夫检验是比卡方检验更精确的一种非参数检验法。
-
●8.5两个独立样本检验
在均值比较的两个独立样本T检验过程中,假定了两个样本都是来自于正态总体。然而,在实际中我们往往并不知道所抽取的样本的总体分布形式。在这种情况下,可以使用SPSS提供的非参数方法,两个独立样本的检验过程进行检验,来比较两个独立样本是否来自于相同分布,或者说两个总体是否具有相同的概率分布。
-
●8.6多个独立样本检验
上一节中,我们介绍了两个独立样本的检验过程,而在实际中我们常常需要比较多个独立样本是否来自于具有相同分布总体的样本。当这些样本都是来自于等方差的正态总体时,可以使用方差分析过程进行检验,如果正态的假定不满足时,便可以使用非参数多个独立样本的检验过程来进行检验。
-
●8.7两个相关样本检验
两个相关样本检验过程也是用于比较两个总体分布的非参数检验法。当总体分布未知,两个样本相关时,就可以使用本过程来检验。
两个相关样本检验过程要求数值型变量必须是成对数据,通过比较对应样本观测值之间的差异来检验总体的差异。 -
●8.8多个相关样本检验
多个相关样本检验是用来比较多个总体分布是否相同的非参数检验方法。这种检验过程实质上是方差分析中所讨论的无重复无交互作用的双因素试验的方差分析,只不过在这里舍弃了总体服从等方差的正态分布和不存在交互作用的基本假设,亦即总体可以是具有相关关系的。因此,所处理的问题的条件是相当宽松的。
-
第九章相关与回归分析
事物之间的联系往往可以表现为变量之间的依存关系。变量之间的依存关系,依据其紧密程度不同,大致可分为函数关系与相关关系。函数关系是指现象之间存在的确定性的数量依存关系,即当一个(一些)变量的取值给定时,与之相依存的变量的值就完全确定下来。函数关系是数学的研究对象,相关关系则是统计学的研究对象,具体又有两种研究方法:相关分析与回归分析。
-
●9.1相关分析
相关分析的主要内容有:(1)判断现象之间有无关系及相关关系的具体表现形式;(2)确定相关关系的密切程度;(3)检验现象相关的显著性。不管是连续型变量,还是离散型变量,我们都可以通过某种(或某些)指标来测度其相关的程度。这里我们仅对连续型变量的相关关系加以介绍。
-
●9.2回归分析
通过前节学习的相关分析,可以分析现象之间相关关系的方向和相关的密切程度。但相关分析不能判断现象之间具体地数量依存关系,也不能根据相关系数来估计或预测因变量可能发生的数值。因此,为了探求变量之间的具体数量变动关系,一般在相关分析的基础上再进行回归分析。
所谓回归分析,是指对具有相关关系的两个或两个以上变量,它们之间的数量依存关系进行测定,确定因变量和自变量之间的数学表达式,以便对因变量进行估计或预测的统计分析方法。
回归分析的主要内容有:(1)确定自变量和因变量;(2)得到因变量与自变量之间的数学表达式;(3)对回归模型进行评价与诊断;(4)对因变量进行估计或预测。
本节主要介绍满足经典假定时,回归模型的估计、模型的评价及预测这三方面内容。 -
●9.3多重共线性的检测及处理
经典假定中关于自变量(也称为解释变量)的其中一个假定是:任何一个自变量都不是另一个(或另一些)自变量的完全的线性函数。如果违背了该假定,则称模型存在完全的多重共线性。现实生活中,完全的多重共线性是很少见的,而严重的不完全多重共线性则是常见的,尽管它没有违背上述假定,但依然会导致如下的严重问题:(1)估计量的方差和标准误差会增大;(2)重要的解释变量通不过t检验;(3)某个(或某些)系数的符号与常识(或实际意义)不相符;(4)估计量对样本非常敏感。这些严重的不良后果,要求我们必须重视多重共线性问题。那么如何识别多重共线性问题?如果确定模型存在多重共线性问题,应该采取什么样的补救方法?
-
●9.4异方差性及其处理
经典假定中关于随机误差项的一个假定是随机误差的观测值具有同方差,如果除同方差假定外其他的假定均成立,则随机误差项的同方差性就等价为被解释变量的同方差性。当模型存在异方差问题时,如何去诊断异方差?对异方差如何补救?本讲将借助SPSS,给出这些问题的答案。
-
●9.5自相关性及其处理
经典假定中关于随机误差项的另一个假定是随机误差项之间不相关。然而,对于时间序列数据,由于惯性等原因经常出现自相关问题。当模型存在自相关问题时,如何去诊断自相关?对自相关如何补救?本节将借助SPSS,给出这些问题的答案。
-
●9.6异常值的检测与分析
在回归分析的应用中,数据时常包含一些异常的或极端的观测值,这些观测值与其他数据远远分开,可能引起较大的残差,从而极大地影响回归拟合的效果。与此同时,异常值中又包含着丰富的信息,它可能意味着某种非线性模型,也可能意味着缺少观测值等。识别异常值,总结异常值存在的可能原因并加以消除,是我们这一节要解决的主要问题。
-
第十章时间序列分析
时间序列是按照时间顺序取得的一系列同一现象的观测值。时间序列分析旨在发掘数据随时间变化而变化的规律性,并利用这种规律对未来现象的变化进行预测。例如,对一个国家过去一段时期经济增长的统计分析,就可以对该国家未来几年的经济增长作出预测,一个企业的历史销售数据更是企业制定未来销售计划的主要依据。
不同的时间序列呈现出不同的变化特征,这主要是由时间序列不同构成要素的变化所引起的。一般认为时间序列有下列4个要素所构成,即长期趋势、季节变动、循环变动及不规则变动。按时间序列四种构成要素对其不同影响方式,时间序列可以分解为多种模型形式,如乘法模型、加法模型。乘法模型假定时间序列变化是四种构成要素相乘的结果,加法模型假定时间序列变化是四种构成要素相加而成的。SPSS分析-预测菜单中包括时间序列创建模型、季节分解、序列图等多种时间序列数据的建模过程,此外SPSS还提供了定义日期(第三章3.3节)、创建时间序列(第四章4.6节)等时间序列数据整理转换操作。
下面分别介绍在SPSS中如何实现移动平均法,指数平滑法、长期趋势预测以及季节变动预测。 -
●10.1移动平均
移动平均指的是将时间序列连续多期的观测值进行递推地平均,一次计算包含连续若干期观测值的平均数,得到一个由平均数构成的序列,分为中心移动和非中心移动两类。
-
●10.2指数平滑法
利用移动平均法对时间序列进行平滑或者预测时并没有充分利用原时间序列的所有信息,而指数平滑可以克服这个不足,与Excel不同的是SPSS中的指数平滑根据数据特点会自动选择合适的平滑系数,不需要手工输入。
-
●10.3长期趋势
长期趋势是指时间序列在长期内呈现出来的某种持续上升或持续下降的变动。此部分操作和第九章的回归分析类似。
-
●10.4季节变动的分析和预测
季节变动的测定方法主要是计算季节指数,来测定具有季节周期变动的时间序列数据的变化趋势和预测。常用的方法是移动平均比率法。