-
第一章导论
世界著名统计学家CR劳在《统计与真理》一书中说:在终极的分析中一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有判断都是统计学。本课程只是统计学导论性质的基础课程,只是为你打开了统计学科的一扇窗户。如果你想对统计学有更深入学习,可以适当扩大阅读面,我们会给你推荐一些值得阅读的统计学文献。
-
●1.1统计及其应用领域
说到统计学,你最先想到什么?是数据、均值、方差?还是调查分析、价格指数?无论如何,统计学是不能离开数据的。统计学产生于数据分析的需要。英国统计学家约翰.格朗特在1662年出版了《关于死亡表的自然观察和政治观察》,通过对伦敦几十年的人口统计数据,特别是出生、死亡人数的观察和分析,发现了一些重要的人口统计规律性。如新生儿性别比例稳定在14:13,男性在各年龄组的死亡率均高于女性;一般疾病的死亡率比较稳定,而传染病的死亡率波动较大。他不但探索了人口变化的数量规律,还对当时伦敦市人口数量进行了比较科学的估计。同时代的另一个英国统计学家威廉.配第在1676年出版的《政治算术》中,用大量统计数据对英国、法国和荷兰三国的经济实力进行了比较分析,开创了在经济学中运用统计方法的先例。当然早期的统计学方法在数学运用上还比较简单,后来经过两百多年各领域统计学家的不断探索和创新,到20世纪统计学已经发展成为一门体系庞大的方法论学科,成为现代科学中不可缺少的重要研究方法。
-
●1.2统计数据的类型
统计学是关于统计数据的研究方法。那么,什么是统计数据?有哪些类型的统计数据?
-
●1.3统计中的几个基本概念
统计学的研究过程是通过数据收集、整理和分析解释来认识研究对象的数量规律性的过程。
-
●1.4如何学好统计学
我们生活在大数据时代,《统计学》已经成为人人要学的一门方法课程。需要先来了解课程内容,以便对课程学习心中有数、胸有成竹。
-
第二章数据的整理与图表显示
本章重点学习统计整理技术、统计图表的设计及其应用。当获取了研究问题所需数据后,通常它们是反映不出数据规律、特征的,需要进行整理,并将其展示出来。统计学中整理的基本方法就是统计分组;展示的最基本最简单的工具,就是统计表、统计图。
-
●2.1统计分组(上)
统计分组包括两个层面的含义,一是对总体进行分,二是对个体进行合。如何进行分与合,涉及到统计分组的技术问题。依据统计学总体性思想,一般采用对总体进行分的方法。
-
●2.2统计分组(下)
组距分组需注意的统计技术问题。
-
●2.3统计表的设计
统计表是用来反映综合数据的表。规范的统计表不同于一般的表,它是由纵横交叉的直线组成的、左右两端不封口的表。
-
●2.4统计图的制作
统计图是统计分析中最简单、最直观的一种常用工具。它是利用几何图形(点、线、面)或其它图形把所研究现象的特征、内部结构等绘制成图形。
-
第三章描述统计量
本章的基本思想是通过计算某个统计量就可以描述数据某一方面的特征。本章包含四节内容:数值平均数,位置平均数,数据差异程度的描述和数据分布的描述。
-
●3.1数据平均数
20世纪早期,施密特发现不同地区所捕获的同种鱼类的脊椎骨和腮腺的数量有很大不同;然而,鳗鱼的脊椎骨的数量却变化不大。施密特从欧洲各地、冰岛、亚速尔群岛和尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准差值。施密特由此推断:所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳号”的科学考察船在一次远征中最终发现了这个场所。由此可见,即便用如此简单的平均数,也能带来有意义的科学发现。
-
●3.2位置平均数
在描述人群身高时采用均值比较合适,但在描述他们的经济收入时,却不是那么回事了。将一个公司男性的年收入列出来,你将发现分布将不再对称,也不是钟形的正态分布,而是右偏的。这些数据会从极小的值变动到大概80万元,年收入15万元最多,多于 95%的收入低于40万元。此时,均值、众数与中位数离得很远。 做分析时该用哪个代表年收入一般水平呢? 位置平均数的定义是特殊位置上的数据作为集中趋势代表值。 常用的位置平均数有众数、中位数、分位数。
-
●3.3数据变异程度的描述
数据变异程度的描述
-
●3.4数据分布的描述
在现实数据中,数据分布并不总是正态分布,分布有偏及尖峰厚尾现象也很普遍。从两个班的成绩分布图可以看出,两班分数的均值差异不大,但分布完全不同,一个班低分段人多,一个班高分段的人多。因此描述数据还应该考虑到要有刻画数据分布的统计量。因此偏度系数和峰度系应运而生。
-
第四章参数估计
我们可以从样本含有的信息中提取总体信息,那么参数估计就是用样本的统计量去估计总体的参数,比如,用样本均值估计总体均值、用样本比例估计总体比例等。
-
●4.1抽样与抽样估计
要了解参数估计,首先需要进行抽样,在概率抽样中,最基本的方法是简单随机抽样。简单随机样本就是如果总体中每个个体被抽中的概率相等,这种抽样称为简单随机抽样,这样抽得的样本称为简单随机样本。
-
●4.2总体参数的点估计
了解了样本均值及样本比例的抽样分布,那么在进行估计之前我们还需要先了解参数估计量的优良性质。为什么需要了解参数估计量的性质,例如估计总体均值,我们可以选择的参数估计量很多,为什么我们最后根据样本均值进行估计呢?这就是因为样本均值具有优良性质,即无偏性、有效性和一致性。
-
●4.3总体参数的区间估计
学习了点估计方法,由于点估计没有提供估计误差的信息,所以需要进行区间估计。所谓区间估计,就是在点估计基础上我们给出估计误差的信息,那么估计误差怎么计算呢?
-
第五章假设检验
现有某电视机厂(甲方)要从某电子元件厂(乙方)购入一批元件用于组装电视机。为保证质量,降低成本,甲方希望这批元件的合格率达到99%以上。乙方也保证这一点。那么问题是:这批元件的合格率是否真的达到了99%以上。要验证这个问题,相当于对假设:元件的次品率不超过1%做出判断。我们可以先假设元件的次品率不超过1%,然后可以根据样本来验证这个假设是否成立。
-
●5.1假设检验的定义与假设检验的基本原理
假设检验的基本原理是小概率事件原理。首先,什么是小概率事件?这里的小概率事件也就是我们在概率论中讲到的概率接近零的事件。例如,某人购买几张彩票就中500万大奖这个事件就是个小概率事件;再比如小行星撞击地球也是个小概率事件。那么概率小到多少算是小概率事件?这并没有统一的规定,而是由研究者根据具体情况事先确定,最常见的情况是取0.05,也可以取0.01,或其他值。
-
●5.2假设检验的相关概念
假设分为原假设和备择假设,原假设是我们要检验的假设,又称“零假设”,用H0表示。备择假设是与原假设对立的假设,也称“研究假设”,用H1表示。一般来讲,备择假设往往是研究者想搜集证据予以支持的假设,而原假设常常是研究者想搜集证据予以反对的假设。在引例1中,研究者想要搜集证据予以证明的假设应该是“合格率低于99%”,想搜集证据予以反对的假设是“合格率不低于99%”,因为如果对元件的合格率没有质疑的话就没有抽检的必要了。所以H0为π>=99%,H1为π<99%
-
●5.3大样本情况下一个总体均值的假设检验
检验的参数不同,样本条件不同,检验的统计量及其服从的分布也不同,接下来我们将分别研究在不同的情况下,如何对一个总体参数进行假设检验。我们先来学习一下一个总体均值的假设检验。一个总体均值的假设检验又分为两种情况,一个是大样本情况下的总体均值的检验,另一个是小样本情况下正态总体均值的检验。
-
●5.4小样本情况下正态总体均值的检验
对于小样本,我们只研究总体服从正态分布的情况,和大样本相似,我们也是分总体方差已知和总体方差未知两种情况。
-
●5.5单个总体比例的检验以及单个总体方差的检验
我们在抽样分布中学到,对样本比例应用中心极限定理得到P的概率分布形式:当样本量足够大时,样本比例的抽样分布可以用正态分布近似。对于P,同时满足n乘以p>=5,n乘以(1-p)>=5,这两个条件时认为样本量足够大,这时样本比例P近似服从均值为π,方差为n分之π乘以(1-π)的正态分布,在原假设成立的条件下,π=π0,所以我们可以用π0来代替π,就得到标准化后的检验统计量Z=(p-π0除以根号下n分之π0乘以(1-π0))服从标准正态分布。
-
第六章相关分析与回归分析
我们了解了如何对我们感兴趣的问题收集数据,如何使用图表技术整理和展示收集到的数据,如何反映数据的分布特征,如何利用样本的数据对总体参数进行统计推断。这些知识的学习,为我们认识世界提供了强有力的武器。但是仅有这些知识并不全面,因为它们都是建立在单变量的基础上。有时,我们可能还需要对下述问题做出回答:大学的旗袍俱乐部计划增加开会时的饮料和娱乐经费以吸引缴纳会费的成员。作为俱乐部的一个成员,由你负责判断增加饮料和娱乐经费实际上是否能增加会费收入。这笔支出和会费收入这两个变量之间有关系吗?
-
●6.1相关分析
在研究两(多)个变量时,我们关心一(多)个变量的某些值是否对应于另一个变量的某些值。例如:增加用于娱乐的预算是否会带来更多的会费?提供奖品赞助是否能增加商业收入?足球比赛中受伤次数与受伤程度是否与场地类型有关?吃盐多、吃糖多、吃油多、运动少是否会导致血压升高?当我们确实从数据中发现了这样一些规律时,我们就称变量间存在统计关系(相关关系)。
-
●6.2一元线性回归分析
通过第一节的介绍,我们知道Mary获得了初步成功,但要猜出游客的体重,仅进行相关分析还办不到。因为通过相关分析,她只是知道,20个游客身高与体重存在关系,并且达到很强的程度,同时使用假设检验的方法,她还得到身高与体重之间的关系是本质上的,而不仅仅表现为样本现象。但是,体重对身高的数量依存关系到底是多少?用什么方法获得这种数量依存关系?样本训练出来的数量依存关系能不能推广到总体?诸如此类的问题,还需要进行进一步的回归分析。
-
●6.3多元线性回归分析
多元线性回归分析是一元线性回归分析的自然扩展,通常由于现实问题的复杂性,其影响因素往往不止一个,此时就需要建立多元回归模型,这里我们还是把学习范围限定在线性及可线性化的内容上。由于多元线性回归分析与一元线性回归分析的原理完全相同,只是多元中因为有更多的自(解释)变量,常常借助向量、矩阵的形式来表达回归模型及相关的结果,新的表达形式以及伴随着自变量增多需要研究的新问题,这些就是我们在这一节学习的重点内容。
-
第七章时间序列分析
统计数据可分为截面数据和时间序列数据。截面数据是静态数据,数据分布特征是统计分析的重点。时间序列数据是动态数据,其分析目的是探究数据随时间变化而变化的规律性,并利用这种规律对未来进行预测。例如,对一个国家过去一段时期经济增长的统计分析,就可以对该国未来几年的经济增长做出预测,对一个地区月降雨量的长期观测统计可以预测来年该地区的各月降雨量,一个企业的历史销售数据更是制订未来销售计划的重要依据。例如大华公司是一家乳制品企业,生产了一种新型乳制品。从图1(见ppt2)可以看出,这种产品上市后,销量呈增长的趋势。同时,受季节因素影响,该产品的销售起伏较大。
-
●7.1时间序列的概念及构成
所谓时间序列是按照时间顺序取得的一系列同一现象的观测值。例如股票市场中每天的收盘价格、某企业产品各季度的销量以及我国历年的GDP等。时间序列由两个序列组成:一个序列是现象数值所属的时间,即现象发生的时间,可以是年、季、月、周、日等时间单位;另一个序列反映现象在对应时间条件下的数量特征值。表1是我国几个宏观经济指标的时间序列。
-
●7.2长期趋势的测定
时间序列分析的出发点是明确时间序列中的各个构成要素,但由于不规则变动的影响,各构成要素的变化趋势往往隐藏其中,特别是当时间序列的时间间隔较短时,不规则变动对构成要素确定的影响更加明显。为了消除不规则变动的这种影响,需要进行长期趋势的测定,其方法可以对时间序列进行平滑处理或建立趋势方程。
-
●7.3季节变动分析和预测
本节主要讲解季节变动的测定和含季节变动时间序列的预测。解决大华公司新型乳制品未来一年各个季度销售预测的问题。季节变动是一种最主要的周期性变动,其特征主要有两点:一是有规律的按周期重复出现;二是各周期变动幅度大致相同。季节变动的原因有些是季节变化这种自然原因造成,如服装、空调等商品销量随季节变化呈现出特有的变化规律;有些季节变动的原因是人为因素造成,如国家法定节假日造成的铁路或航空运输量的变化。
-
第八章统计指数
在日常生活中,我们经常会听到或看到一些关于指数的分析报道。如,居民消费价格指数、股票价格指数、销售价格指数等等。在国家统计局发布的《2019年国民经济和社会发展统计公报》显示:全年居民消费价格比上年上涨百分之2.9。工业生产者出厂价格下降百分之0.3。工业生产者购进价格下降百分之0.7。固定资产投资价格上涨百分之2.6。农产品生产者价格上涨百分之14.5等。那么上述这段文字中所提到的各种价格指数如何计算?这些价格指数蕴含着什么样的意义?这一章我们就将讨论学习有关指数的基本知识和各种指数编制的方法和原理。
-
●8.1统计指数的概念及其种类
本节介绍统计指数的概念及其种类,统计指数的概念有广义指数和狭义指数之分。广义指数:凡用来反映社会经济现象数量变动的相对数,都可称为指数。 例如:比较相对数、计划完成相对数、发展速度等等都可以说是一种指数。而狭义指数:表明复杂经济现象总体数量综合变动的相对数。强调数量上不能直接相加的总体。
-
●8.2综合指数及其应用
假定某市场上5种商品的销售价格和销售量资料如下表,通过计算我们发现,5种商品中,服装价格指数等于百分之130最大——价格上涨百分之30,食盐的价格指数等于百分之80最小——价格下跌了百分之20;食盐的销售量指数等于百分之150最大——增长了百分之50,服装的销售量指数等于百分之95.83最小——减少了百分之4.17。那么现在要反映这5种商品总体的价格或者销售量的变动情况,就得计算总指数。综合指数与平均指数是总指数的两种重要形式。其中综合指数是总指数的基本形式。接下来我们就一起学习综合指数的编制原理。
-
●8.3平均指数及其应用
平均指数是总指数的又一重要形式。运用综合指数法编制总指数,要求掌握全面的统计资料,但是,有时候却难以取得。例如物价指数,计算它既要有全部商品的价格和销售量资料,还要有不同时期的有关记录。然而,在实际工作中,要搜集到全部商品不同时期的价格和销售量资料,显然不易,除非在较小范围内,而且商品品种较少的情况下,可以直接利用综合指数法编制总指数。
-
●8.4指数体系及因素分析
指数体系及因素分析