-
绪章绪论
本章是该课程的绪论部分,主要介绍了生物统计学的基本特征和基本术语。从生命科学中生物现象的特点出发,论述了学习生物统计学的重要性。同时,对生物统计学领域常用的术语——变量与观测值、总体与样本、参数与统计量、准确性与精确性、系统误差与随机误差等的联系与区别进行了阐述。掌握本章的基本内容是学习畜牧生物统计与试验设计的前提。
-
●0.1生物统计学基本特征
生物统计学以概率论为理论体系,以数值计算、线性代数、计算机技术、大数据与人工智能等为支撑,用以解释生命科学研究中的复杂现象。统计学是研究数据资料的收集、整理、分析和解释的科学。的科学,具有概率性、二元性和归纳性的特点,而生命现象具有变异性、不确定性和复杂性的普遍特点,恰好与统计学的特点相吻合。因此,可以使用统计学方法对生命现象中的数学问题加以研究。
-
●0.2生物统计学的基本术语
为方便阅读和教学,本节中对畜牧生物统计与试验设计这门课程中经常出现的专业术语给出了解释。主要包括变量与观测值、总体与样本、参数与统计量、准确性与精确性、系统误差与随机误差。统计学分析是一种从样本的统计量推断总体参数的过程,反映出从特殊到一般的思想。在试验过程中误差是无可避免的,观察值或估计值与真实值之间往往存在差距。观测值或估计值与真值的接近程度称为准确性,主要受系统误差影响;重复观测值或估计值之间的接近程度称为精确性,主要到随机误差影响。
-
第一章资料的描述统计分析
通过试验或调查收集的原始数据资料,一般具有“大量”和“杂乱无章”的特点,不能直接考察其潜在的特征,所以首先要进行描述性统计分析,使之条理化,并成为宜于统计分析的形式,同时通过对资料的初步计算分析,对资料的统计特征有大致了解,为进一步深层次分析打好基础。
整理试验或抽样调查获取的数据资料的过程,也称为描述性统计分析,通过这一过程,我们能够对数据资料的基本特征有初步的了解。
本章首先介绍了数据资料的分类和对异常数据的判断及处理方法,然后介绍了对数据资料基本分布特征的分析方法,包括频数(率)分布的计算,常用统计表、统计图制作的一般原则和方法,以及对数据资料集中性和离散性度量指标(描述性统计量)的定义及其计算方法。 -
●1.1数据资料的分类
与一般资料相比,用于统计分析的资料具有数字性、大量性、具体性的特点。资料的分类是统计归纳的基础,根据资料的收集方法及数据的取值特征,通常可将资料分为连续型资料、离散型资料,离散型资料又可以进一步分为计数资料和分类资料。
-
●1.2数据集中趋势的度量1
在统计分析中,我们首先希望知道的数据特征往往是是一组数据的集中趋势,即变量分布的中心位置。常用的度量指标有算数平均数、几何平均数、调和平均数、和众数。其中,算数平均数适用于正态或接近正态分布的数据资料,而几何平均数和调和平均数受极端值的影响较小,中位数反映出数据位置的中心,众数则能够代表大众水平。
-
●1.3数据集中趋势的度量2
在数据完全对称分布的情况下,算数平均数、中位数及众数三者相等。但当数据呈现微偏态时,三者会呈现不同的关系。作为集中趋势的度量指标,应满足一定的条件。我们在具体的试验过程中,应根据需求的不同选择不同的度量指标。
-
●1.4数据离散趋势的度量
仅仅了解数据的集中趋势是不够的,还需要用一些度量离散趋势(变异程度)的指标反映集中趋势对数据的代表程度。若样本观测值间变异程度小,则平均数的代表性就好;若观测值间变异程度较大,则平均数的代表性就差。
度量数据离散趋势的常用指标有方差、标准差和变异系数,此外还有范围和平均绝对离差。 -
●1.5异常值的判断和处理
异常数据是指定量资料中存在的极端值,这些极端值可能是试验错误引起的,也可能是数据本身的特性的反映。本节介绍了四分位数检验法和Grubbs检验法的具体操作,当两种检验结果出现差异时,应以较为严格的结果为准。
-
●1.6 习题解析
本章的练习主要介绍了如何用R进行资料数据的描述统计分析,需要理解和掌握的统计知识点有平均值、标准差、方差、众数和中位数等,以及什么是频数分布和频率分布。同时,需要掌握R函数mean、var、sd、median、summary、quantile等,以及如何用R绘制简单的直方图和饼形图。
-
第二章随机变量与概率分布
随机变量与概率分布是概率论中的主要内容,也是统计学的重要基础。本章简要介绍随机变量的分类、概率分布的概念、离散型和连续型随机变量概率分布的定义和特征,并重点介绍了3个重要的概率分布(正态分布、二项分布和泊松分布)。
-
●2.1随机变量及其分类
随机变量在一定范围内随机取值的变量,它的取值由于受到许多随机因素的影响,因而是不可预测的,但是这并不是说随机变量的取值是毫无规律的,其规律性就在于它取值的概率性,也就是说它的取值是服从某种概率分布的,因而我们也可以说随机变量是以一定的概率分布取值的变量。
对应于数据资料的分类,随机变量也可分为离散型随机变量和连续型随机变量两大类。离散型随机变量是只取有限种可能值(通常为整数)的随机变量,连续型随机变量是在一定范围内可取任意实数值的随机变量。 -
●2.2 离散型随机变量的概率分布
本节对离散型随机变量的概率函数和累积分布函数进行了介绍。概率函数是描述离散型随机变量取各个可能值的概率的函数。累积分布函数可用于描述随机变量取值小于等于某值的概率。
-
●2.3连续型随机变量的概率分布
本节对连续型随机变量的概率密度函数和累积分布函数进行了介绍。对于连续型随机变量来说,由于在理论上它可以有无穷多种可能的取值,所以定义它取某值的概率是没有意义的,只能定义它在某区间内取值的概率,这个概率可以通过概率密度函数来描述。
-
●2.4正态分布
正态分布是最重要的连续型随机变量的概率分布,在生物统计学中占有极重要的地位,许多生物学领域的随机变量都服从正态分布或通过某种转换后服从正态分布,许多其他分布都与正态分布有关。因此,本节内容对正态分布的定义、描述和性质进行了重点的讲解。
-
●2.5二项分布与泊松分布
二项分布是最常见的离散性随机变量的概率分布。其定义是:假设在相同条件下进行了n次试验,每次试验只有两种可能结果(可记为1和0),结果为1的概率为p,为0的概率为1-p,各次试验彼此间是独立的。则在n次试验中,结果为1的次数X(=0,1,2,…,n)是个随机变量,其分布称为二项分布。
-
●2.6 习题解析
本章的练习主要介绍了如何用R得到不同分布的概率密度函数、概率分布函数和分位数,需要理解和掌握统计知识点主要为正态分布、二项分布、泊松分布的分布特点。同时,需要掌握用R函数pnorm、dnorm、pbinom、ppois等实现正态分布、二项分布等的概率密度函数、概率分布函数。
-
第三章统计推断概述
统计学的核心任务是统计推断,主要包括2个方面的内容:一是参数估计,二是假设检验。本章首先介绍了抽样分布的概念以及常用的抽样分布——正态分布、χ2(卡方)分布、t分布和F分布,推导了正态总体样本平均数和样本方差的抽样分布。然后简要介绍了参数估计(点估计和区间估计)的基本方法以及相关的概念。最后重点介绍了假设检验的基本原理、基本步骤以及相关的概念。
-
●3.1抽样分布定义-卡方分布
若n个相互独立的随机变量X₁,X₂, … , Xn,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一个新的随机变量,其分布规律称为卡方分布。本节对卡方分布的定义和基本性质进行了介绍。
-
●3.2抽样分布定义-t分布、F分布
设随机变量Z~N(0,1),Y~χ2(n),且二者互相独立,则随机变量t=Z/√(Y/n)服从自由度为n的t分布,记为t~t(n)。设随机变量X~χ2(m),Y~χ2(n),且互相独立,则随机变量F=(X/m)/(Y/n)服从自由度为m和n的F分布,记为F~F(m, n)。本节对t分布和F分布的定义和基本性质进行了介绍。
-
●3.3样本平均数和方差的抽样分布
根据中心极限定理,无论原总体是什么分布,只要样本足够大,样本平均数就近似服从正态分布,要满足这个近似所需要的样本大小随原分布与正态分布的差别而异,但一般来说,只要样本含量不低于30,就能得到足够理想的近似程度。如果原总体的平均数为μ,方差为σ2,则样本平均数近似服从N(μ,σ2/n)。这个定理对于统计学非常重要,因为很多统计推断的方法都是以正态分布为基础的,这个定理保证了这些统计推断方法的广泛适用性。本节介绍了来源于正态分布总体的样本平均数和方差的抽样分布。
-
●3.4参数估计-点估计
要对某个总体参数作出估计,一个最简便的方法是以某个样本统计量作为该参数的一个估计值,这样的估计叫点估计。本节对点估计的常用方法和评价指标进行了介绍。
-
●3.5参数估计-区间估计
区间估计是以一定置信度对参数真值的可能取值范围进行估计。本节以对正态总体平均数μ和方差σ2进行区间估计为例说明区间估计的方法。
-
●3.6假设检验的基本思想
假设是指对总体的某些未知的或不完全知道的性质所提出的待考察的命题,假设检验是指根据样本资料对假设的成立与否进行推断。这里的假设是一个统计学概念,故也称为统计假设,它与数学中常说的假设(指假定条件)是不一样的。假设检验又称为显著性测验,是统计学的核心内容之一。
本节内容包含假设检验的基本思想和实际应用,对常用的基本概念进行了介绍,并总结了假设检验的基本流程。 -
●3.7与假设检验相关的重要概念
在假设检验中,除了上节中提到的一些基本概念(如原假设、备择假设、检验统计量、否定域等),还有一些其他相关概念。本节对I型错误和II型错误、双侧检验和单侧检验、置信区间与假设检验等基本概念进行了介绍。
-
●3.8 习题解析
本章的练习主要介绍了如何用R实现简单的统计推断,需要理解和掌握统计知识点主要为卡方分布、置信水平、总体平均数和总体方差的置信区间等。同时,需要掌握用R函数qnorm和qchisq分别计算总体平均数和总体方差的置信区间,以及如何用for循环进行简单的循环计算。
-
第四章 对单个和两个总体平均数的假设检验
本章主要介绍一些常用的假设检验方法,讲述对单个和两个总体平均数的检验。前者是检验某正态总体的平均数是否等于某个特定的值,包括总体方差已知时的Z检验和未知时的t检验两种情况,后者是检验两个正态总体的平均数是否相等,包括利用随机分组资料的检验(其中包括3种情况:两总体方差已知、两总体方差未知但相等、两总体方差未知且不等)和利用配对资料的检验。
-
●4.1单个总体均数的检验
对单个总体均数的检验要解决的问题是对某个未知的总体平均数μ与某个特定的值μ0进行比较,检验它们是否相等。为进行这个检验,需从该总体抽取一个随机样本。在检验时,有两种不同的情况,即总体的方差σ2已知时的检验的Z检验和总体的方差σ2未知时的检验的t检验。
-
●4.2对两个总体平均数的比较
比较两个总体均数的检验要解决的问题是检验两个总体的均数是否相等。为进行这个检验,需要从两个总体中分别抽取随机样本。
-
●4.3方差同质性检验
当两总体的方差未知时,还要考虑两总体的方差是否相等。这时就需要首先对此进行检验,即进行方差的同质性检验,亦称作方差的齐性检验。
-
●4.4配对设计
所谓配对设计是指先将参加试验的个体两两配对,再将每一个对子内的两个个体随机地接受两个处理中的一种。配对的原则是对子内两个个体的初始条件应尽可能一致,但不同对子间个体的初始条件允许存在差异,其目的是尽量减少试验个体间的差异对试验指标的影响。
-
●4.5习题解析
本章的练习主要介绍了如何用R实现单个总体和两个总体平均数的假设检验,需要理解和掌握统计知识点主要为单个总体平均数的t检验、方差已知时两个总体平均数的Z检验和方差未知时两个总体平均数的t检验,以及如何进行两个总体的方差同质性检验。同时,需要掌握R函数t.test、qt和qf等。
-
第五章方差分析I单向分类资料
方差分析(analysis of variance,ANOVA)方法是由英国统计学家R.费歇于1918年提出的。其基本思想是将数据间的变异性分解成组间变异和组内变异,不同的组来自不同的总体;同组的个体由于是来自同一总体,因而组内变异是由于个体间的随机差异造成的,而不同组个体间的变异除了有个体间的随机差异外,还有不同处理所造成的差异。方差分析是假设检验的主要方法之一,可用于多种类型资料的假设检验。本章介绍了对单向分类资料的方差分析方法,并结合单向分类资料介绍了方差分析的基本原理和一般步骤。在方差分析的基础上,本章还介绍了3种多重比较的方法:最小显著差数(LSD)法、Bonferroni t检验及Duncan’s多重极差检验法。此外,本章还介绍了方差分析的基本假定、多总体方差同质性的常用检验方法(包括Harteley检验、Cochran检验和Bartlett检验)以及对数据进行方差稳定性转换的常用方法(包括平方根转换、对数转换、反正弦转换和倒数转换)。
-
●5.1单向分类资料结构及方差分析基本思想
单向分类资料,是指以一种标准来分类(或称分组)的资料,这个标准可以自然地或人为地分为若干个类别,或称水平,例如不同的品种、不同的饲料配方、不同的药物等,通常也将这些不同的类别称为不同的处理。研究的目的是要比较不同的处理对所考察的指标(性状)的影响有无差异,或者说是比较各处理所代表总体的平均数有无差异。
-
●5.2方差分析模型
数学模型是方差分析的基础。本节的数学模型是一种线性模型,它将观测值表示为影响观测值大小的各个因素效应的线性组合。对于单向分类的数据来说,影响观测值大小的因素可分为两种,一是对各组个体所实施的不同处理(即它们来自不同的总体),它对同组个体的影响是相同的;二是其他随机因素(通常未知),常称为随机误差或随机残差,它对每个个体的影响都是不同的。
-
●5.3方差分析的平方和及自由度剖分
所有观察值的变异构成了整个资料的总变异,总变异平方和(SST)可以剖分为组间平方和(SSA)与组内平方和(SSE)。总变异平方和反映了全部样本观察值间总的变异程度;组间平方和反映了各处理平均数的总变异程度;组内平方和反映了同一处理内重复观察值间的变异程度。本节主要介绍了平方和的剖分和计算。
-
●5.4方差分析例题解析
本节以比较患不同种类白血病小鼠的脾脏重量是否存在差异为例,详细讲解方差分析的思路与步骤:(1)假设、(2)检验统计量、(3)统计推断。
-
●5.5利用方差分析进行两组均数比较
在单向分类资料中,如果资料仅分为两个组,既可以用t检验也可以用F检验来进行平均数差异的检验。一般地,当F分布的分子自由度为1,分母自由度等于t分布的自由度时,则有F=t2。本节主要举例介绍了这两种检验的关系。
-
●5.6方差分析后续分析-多重比较(1)
通过F检验,如果否定原假设,则所有平均数中,至少有两个平均数间存在显著或极显著差异,但我们并不知道每对平均数间差异的显著关系。此时就需要利用多重比较的方法。本节介绍一种常用的方法——Bonferroni t检验。
-
●5.7方差分析后续分析-多重比较(2)
通过F检验,如果否定原假设,则所有平均数中,至少有两个平均数间存在显著或极显著差异,但我们并不知道每对平均数间差异的显著关系。此时就需要利用多重比较的方法。本节介绍另一种常用的方法——Duncan’s多重极差检验法。
-
●5.8数据分析的假定条件
在进行方差分析前,应确保数据必须满足独立性、正态性、方差同质性等基本假定条件。如果这些假定不满足,检验统计量F就不服从F分布,F检验的可靠性就会受到影响,所以在进行方差分析前首先要考察分析的数据能否满足或近似满足这些条件。这些基本假定条件同样也适用于后面各章节所介绍的方差分析方法。
-
●5.9数据转换
对于已经获得的观察值,独立性应在试验前通过试验设计来保证;我们主要考察它们是否满足正态性和方差同质性的要求,如果相差太远,就要考虑采取适当的处理措施,数据转换就是可采取的措施之一。在很多情况下,针对数据特征进行某种转换,可使转换后的数据近似满足正态性和方差同质性的要求。但在对方差分析结果进行解释(例如比较平均数间的差异)时,还需将这些结果转换回原来的尺度。
-
●5.10方差同质性检验
数据的非正态性和方差不同质性经常相伴出现,因为往往正是由于数据的非正态性导致了方差的不同质。本节中我们介绍如何对方差的同质性进行检验。
-
●5.11习题解析
本章的练习主要介绍了如何用R实现单向分类资料的方差分析,需要理解和掌握统计知识点主要为单因素方差分析、方差同质性检验、bonferroni t 多重比较和邓肯多重比较等。同时,需要掌握如何用R函数aov进行单因素方差分析,并学会安装相关的R包裹,使用新的函数进行bonferroni t 多重比较和邓肯多重比较。
-
第六章方差分析II双向分类资料
生物性状往往同时受到2个或多个因素的影响,其中有的因素是我们希望通过试验或调查来研究它们的影响程度,称为试验因子,有的因素则是对试验结果有影响的干扰因子,我们无法将它们从试验中剔除掉,但可以通过适当的试验设计对其进行控制,从而将它们的干扰降低到最小。在这种情况下,我们所获得的数据资料就要按两个标志(因子)或多个标志进行分类。
-
●6.1方差分析II - 双向分类资料
双向分类资料以两种标志(因子)进行分组,称为A因子和B因子,试验观察值同时受这两个因子的影响。根据具体情况,双向分类资料可分为交叉分组和嵌套分组。
-
●6.2双向分类数据变异的分解
双向分类数据所有观测值的总平方和。SSA大小反映了A因子各水平效应的差异,SSB大小反映了B因子各水平效应的差异,而第三个平方和是由随机误差引起的,称为误差平方和,记为SSE。
-
●6.3交叉分组无重复资料的假设检验和多重比较
双向交叉分组无重复资料需要进行2个假设检验,一是检验A因子不同水平的效应有无差异,二是检验B因子不同水平的效应有无差异。当方差分析结果为差异显著(无论对A因子还是对B因子)时,还应进一步作多重比较,可用Bonferroni t检验或Duncan’s多重极差检验等方法。
-
●6.4因子互作及有重复资料的变异剖分
对于交叉分组有重复资料,其主要特点是可以对两因子各水平之间的交互作用(简称互作)进行分析。所有观测值的总平方和。SSA大小反映了A因子各水平效应的差异,SSB大小反映了B因子各水平效应的差异,反映了A因子和B因子之间互作的影响,反映了误差平方和。
-
●6.5有重复资料的假设检验及多重比较
双向交叉分组等重复资料需要进行3个假设检验,一是检验A因子不同水平的效应有无差异,二是检验B因子不同水平的效应有无差异,三是检验A因子与B因子有无互作效应。在F检验结果存在显著影响的因子或互作效应情况下,应采用Bonferroni t检验或Duncan’s多重极差检验等方法进行多重比较。
-
●6.6习题解析
本章的练习主要介绍了如何用R实现双向交叉分组资料的方差分析,需要理解和掌握统计知识点主要为无互作情况和有互作情况下的双因素方差分析,及进行不同组平均值差异的多重比较。同时,需要掌握如何用R函数aov进行双向交叉分组资料的方差分析,及如何用LSD.test和duncan.test函数进行多重比较。
-
第七章线性相关与回归
本章主要介绍对存在线性关系的双变量资料进行简单相关分析和回归分析的方法。相关分析包括相关系数的计算及其显著性检验、总体相关系数的置信区间估计、两个相关系数的比较等内容;回归分析包括回归方程的建立及其显著性检验和拟合度的度量、总体回归系数的置信区间估计、两条回归直线的比较、利用回归方程进行估计和预测及制定校正系数等内容。本章也对相关与回归的区别和联系、相关和回归分析在应用中的注意事项进行了阐述。
-
●7.1相关系数的定义
相关系数是研究变量之间线性相关程度的量,总体相关系数用字母ρ表示,样本相关系数用r表示。相关系数是标准化的协方差,消除了不同随机变量之间量纲差别。本节内容对的定义和计算方法进行了介绍。
-
●7.2相关系数的统计推断
由样本得到的相关系数r是一个统计量,而我们真正需要了解的是两个变量的总体相关关系,由于可能存在抽样误差,样本相关系数的大小并不能直接说明总体线性相关关系是否确实存在(即总体相关系数ρ是否等于0),要通过显著性检验才能对此作出统计推断。本节介绍了相关系数统计推断的两种方法——t检验和F检验,此外还可通过查阅相关系数临界值表对相关系数进行统计推断。
-
●7.3回归系数的定义
在对回归关系的研究中,我们要研究的是当一个变量发生一定量的变化时,可期望另一变量会相应发生多大变化,可将这两个变量之间的关系理解为一种因果关系,受影响的变量称为因变量(或依变量),施加影响的变量称为自变量。换言之,我们要利用自变量的取值来对依变量的取值作出估计或预测。在这里,自变量是可以人为控制的或可以准确测量的,因而是一个普通的数学变量,而因变量的变化除了受自变量的影响外,还受其他随机因素的影响,因此是一个随机变量。对因变量的估计或预测是通过回归方程进行的。本章对回归概念的提出以及回归方程构建的常用方法进行了介绍。
-
●7.4回归系数的F检验
与相关分析一样,对由样本观察值建立的回归方程也要进行显著性检验,必须通过检验来确定建立的直线回归方程是否可靠,即Y是否对X确实有线性回归关系。有两种检验方法——F检验和t检验,本节对回归系数F检验的原理和步骤进行了详细介绍。
-
●7.5回归系数的t检验与区间估计
本节介绍了并介绍了回归系数的t检验与区间估计,并对决定系数r²及bxy与byx的关系进行了简要讲解。
-
●7.6相关系数与回归系数的比较
相关与回归既有区别又有联系,本节对二者之间的区别和联系进行了总结,并介绍了相关与回归分析中常见的注意事项与陷阱。
-
●7.7多元线性回归简介
多元线性回归是研究一个变量(因变量)与其他2个或2个以上变量(自变量)的线性回归关系。本节对多元线性回归的基本过程和显著性检验方法进行了简要介绍。
-
●7.8习题解析
本章的练习主要介绍了如何用R实现简单的相关和回归分析,需要理解和掌握统计知识点主要为相关系数、回归系数及其显著性检验等。同时,需要掌握如何用R函数cor和lm分别计算相关系数和回归系数,并使用cor.test函数进行相关系数的显著性检验。
-
第八章 协方差分析
协方差分析是将方差分析和回归分析结合起来的一种统计分析方法,它主要是利用辅助变量(也称为协变量),降低试验误差,以达到提高检验功效的目的。协方差分析可用于单向分类资料,也可用于双向和多向分类资料。本章介绍了协方差分析的概念、基本原理和主要目的,并具体介绍了协方差分析方法的主要步骤。
-
●8.1统计模型定义和假设条件
协方差分析是方差分析与回归分析的结合,需同时满足两种分析的要求。本节对统计模型定义和假设条件进行了介绍,并总结了协方差分析的基本步骤。
-
●8.2离回归平方和计算
计算因变量对协变量的回归平方和能够对原始平方和进行校正,但校正的前提是因变量对协变量的回归关系显著,若不显著则应进行常规的方差分析。本节主要介绍了对组内回归系数的显著性检验及对原始平方和的回归效应校正。
-
●8.3校正平方和的F检验和多重比较
采用F检验的方式能够对校正后的平方和进行方差分析,能够确定多个校正平均数之间是否存在显著差异。若确定平均数之间存在显著差异,为进一步了解哪些平均数间存在显著差异,可以采用多重比较的方法。对这些校正平均数的多重比较可用LSD法,Bonferroni t检验或 Duncan’s 多重极差检验。本节以Bonferroni t检验方法为例对校正后的平均数间的多重比较进行了讲解。
-
●8.4协方差分析的最小二乘法简介
一般线性模型(GLM)是方差分析模型和回归分析模型的整合模型,能够处理更为复杂的数据情况(如不平衡资料,回归系数异质性、方差异质性等),对各种复杂效应检验和回归分析更为灵活。本节对一般线性模型的表示形式及拟合方法进行了简要介绍。
-
●8.5习题解析
本章的练习主要介绍了如何用R实现协方差分析,需要理解和掌握协方差分析与方差分析的共同点和不同点。需要掌握如何用R函数aov进行协方差分析,并能区分aov函数参数中的协变量和组别因子变量。
-
第九章分类资料的假设检验
数据资料分为连续型和离散型两类,离散型又分为计数型和分类资料。本章介绍对分类资料的假设检验方法,重点阐述了率的假设检验、卡方适合性检验和卡方独立性检验。生物学研究中经常遇到的分类型资料很多,比如,发病与健康、有效与无效、生存与死亡、疾病程度(轻度、中度、重度)等。我们需要分析影响这类变量的各种因素,进行相关的假设检验,并做出统计推断。根据数据的类别数(最少分两类)、样本大小和分析目的,有不同的分析方法。
-
●9.1分类资料数据结构及分析类型
分类资料指可自然地或人为地分为两个或多个不同类别的资料,主要的分类形式包括公称尺度和等级尺度。常见的分析类型可包括以下四类:(1)某率值与理论值或已知值是否存在差异;(2)不同抽样所得的率值间是否存在差异;(3)某构成比是否服从某理论分布或某已知构成比;(4)研究处理与构成比的独立性。
-
●9.2单个率的假设检验
在分类资料中,最简单也最常见的是仅有两个类别的情况,这里的率就是指其中的某个类别的发生概率。本节要检验的是某一类别出现的概率P是否等于某个理论的或假定的概率P0。
-
●9.3两个率的比较
本节要检验的是在两个总体中,某一类别的发生概率是否相等。这里我们仅考虑样本很大的情形。
-
●9.4多分类资料的卡方适合性检验(与已知构成比相比)
分类资料最常用的检验方法是卡方()检验,包括卡方适合性检验和卡方独立性检验。适合性检验,指检验某一分类资料所在总体的分布是否符合某个假设的或理论的分布。本节介绍多分类资料的卡方适合性检验情况之一:已知总体的分布类型,检验该群体各种类别的比例是否符合某个假设的或理论的比例。在检验时,我们无需由样本来估计总体参数。
-
●9.5多分类资料的卡方适合性检验(符合理论分布)
卡方适合性检验的另一种情况是总体的分布类型未知,要检验的是该群体的分布类型是否符合某个假设的或理论的分布类型,此时我们需要由样本估计该分布的有关总体参数,因而导致自由度的损失。
-
●9.6多分类资料的卡方独立性检验
卡方独立性检验,指用于分析有多项分类的两个或两个以上因素之间是否有关联或是否独立的问题。
-
●9.7分类资料的精确检验
对于2×2列联表,当列联表出现理论频数小于5时,由于不能进行合并,所以不能再用检验,Fisher根据排列组合及概率原理提出了对此种情况的精确概率检验法。
-
●9.8习题解析
本章的练习主要介绍了如何用R实现分类资料的假设检验,需要理解和掌握统计知识点主要为单个率的假设检验、两个率的假设检验和卡方适合性检验。同时,需要掌握如何用R函数qchisq计算卡方分布的分位数,用dpois函数计算泊松分布的概率密度函数等。
-
第十章非参数检验
假设检验方法可分为两类,一是参数检验,二是非参数检验。参数检验是假设检验的主流方法,之前各章所介绍的假设检验方法主要是参数检验方法。当参数检验方法不适用时,可考虑选取非参数检验。本章集中介绍了一些非参数检验方法,包括符号检验、符号秩和检验、两组非配对资料的秩和检验、多组资料的秩和检验、秩相关以及Ridit分析等。
-
●10.1非参数检验定义与适用范围
前述的各种假设检验方法都要求总体服从一定的分布,例如,两样本平均数比较的t检验要求样本所在总体服从正态分布。但当样本观测值的总体分布类型未知或知之甚少,无法肯定其性质,特别是观测值明显偏离正态分布,不具备参数检验的应用条件时,则可以使用非参数检验。因为非参数检验不涉及总体参数,也就不依赖于总体分布的形式,所以它是一种与总体分布状况无关的检验方法,因此也称无分布检验法(distribution-free test)。
-
●10.2符号检验
符号检验法(sign test)适用于单个总体平均数检验和配对检验的数据结构,是差异显著性检验的一种方法。它只根据观察值相比较的正负符号来检验两个样本所属总体分布的异同,而不考虑其差值的大小。其检验的基本思想与原理为:假定两个样本所属总体服从相同的分布,则观察值相比正号或负号出现的频率应该相等,或至少相差不应过大,当其相差超过一定的临界值时,就认为两个样本所属总体有显著差异,它们不服从相同的分布。
-
●10.3符号秩和检验
符号秩和检验 (sign rank sum test),是Wilcoxon于1945年基于符号检验方法改进而来,也称为Wilcoxon配对检验法,适用于配对检验的数据结构。与符号检验法相比,符号秩和检验的改进之处在于考虑了差值的大小,克服符号检验法未充分利用数据信息的缺点。
-
●10.4两组非配对资料的秩和检验
两组非配对资料的秩和检验又称为曼-惠特尼(Mann-Whitney)秩和检验。当数据无法满足配对结构时,使用该方法进行秩和检验。检验时,须以样本含量较小一组的秩和作为检验统计量。
-
●10.5多组资料的秩和检验
多组资料的秩和检验法,又称为Kruskal-Wallis检验法,该法利用多个样本的秩和来推断它们分别代表的总体分布是否相同。由于其检验统计量用H表示,所以也称为H检验法。
-
●10.6秩相关
秩相关(rank correlation)也称为等级相关,是分析成对随机双变量之间是否相关的常用非参数统计方法,可用来度量以等级尺度或排队秩次度量的两个变量之间的相关。
-
●10.7Ridit分析
Ridit分析也称为参照单位分析。适用于以等级尺度表示的分类资料,如按疗效分为治愈、显效、好转、无效,按反应分为-、+、++、+++,按麻醉效果分为Ⅰ、Ⅱ、Ⅲ、Ⅳ等级的资料,可分析不同的处理方法与各等级出现频率的关系。
-
●10.8习题解析
本章的练习主要介绍了如何用R实现简单的非参数检验,需要理解和掌握两组配对资料的符号秩和检验、两组非配对资料的秩和检验(Mann-Whitney秩和检验)。需要掌握如何用R函数wilcos.test分别进行两组配对资料和非配对资料的秩和检验。
-
第十一章试验设计简介
本章介绍了试验设计和抽样调查设计的基本概念及原理。叙述了试验设计的基本原则和常用的试验设计方法,包括完全随机设计、配对设计、随机区组设计、拉丁方设计和正交设计等试验设计方法与适用条件。在实际分析中,要根据研究需求灵活应用各种试验设计方法。
-
●11.1试验设计的有关概念
试验是在人为控制条件下进行的一种有目的的实践活动。试验要求发挥人们的主观能动性,通过控制条件来影响事物的发展状态和进程,使之更有利于我们对其客观规律性的认识。本节对试验与实验、观察等名词加以区分,并介绍了有关试验设计的有关概念。
-
●11.2试验设计的基本原理和要素
试验设计应遵循的三个基本原则:随机化、设置重复和局部控制。此外,还有一个要遵守的原则是平衡性,即在试验规模一定的情况下,应尽量地使各个处理内的重复数相等,因为它能使检验效率达到最大。本节对上述的四个原则进行了详细介绍,并总结了试验设计的基本步骤。
-
●11.3完全随机设计
完全随机设计是最简单的试验设计方法。它是将所有试验单元完全随机地分配到各个处理(组)中,使得每个试验单元都有相同的机会接受某个处理。它可用于单因子试验,也可用于多因子试验。本节对完全随机设计的具体方法和优缺点进行了介绍。
-
●11.4配对和随机区组设计
配对设计应用了局部控制的原则,通过配对来消除或降低某种干扰因子对试验指标的影响,但它仅适用于只有两个处理的试验,而随机区组设计是将配对设计扩展到2个以上处理组的设计方法。本节对上述两种实验设计方法及其优缺点进行了介绍。
-
●11.5拉丁方设计
随机区组设计的方法适用于存在一个干扰因子的单因子试验,如果存在两个干扰因子,可以采用双向随机区组设计,即将试验单元按这两个干扰因子从两个方向划分区组,在每个区组组合中安排一个试验单元,每个试验单元随机地接受试验因子的一个处理。这种设计可借助拉丁方来进行,故也称为拉丁方设计。本节对拉丁方设计的具体方法和优缺点进行了介绍,并介绍了改进后的重复拉丁方方法。
-
●11.6正交设计
析因设计是一种多因子试验设计,它是将两个或两个以上因子的所有水平交叉分组进行全面试验的设计。当试验因子较多或每因子的水平数较多时,析因试验的规模就相当大,因而人们考虑只选取部分水平组合进行试验,这部分试验能够较好地反映全部试验的整体情况,因而既能减小试验规模,又不使信息损失太多,达到试验的目的。正交试验设计借助一个正交表选择水平组合,能保证所选的组合对所有的水平组合有很好的代表性。本节对析因设计的优缺点及正交设计的具体方法进行了介绍。





