0090《统计学》2019年6月期末考试指导
一、考试说明
本课程闭卷考试,满分100分,考试时间90分钟。考试试题包括以下三种题型:
1、名词解释(每题4分,共20分)
要求准确给出相关名词的正确解释,但不必拘泥于课本,只要能够正确理解即可。
2、简答题(每题6分,共24分)
回答要点,并作简要分析,要点要求完整、有序、明确,分析力求准确。
3、计算题(共56分)
准确写出计算公式,注意相关计算结果。
二、重点复习内容
第一章 绪论
本章没有教学难点,主要目的是解释统计学的基本思维方式与学习方法。
第二章 统计调查
一.统计指标:描述总体特征的名称
总体与单位
客观存在的,在同一性质基础上结合起来的许多个别事物的整体,称为统计总体,简称总体。
构成统计总体的个别事物,称为总体单位,简称单位,或称个体。
总体的特征
同质性、大量性、差异性。
统计尺度
列名尺度:是指对事物仅做平等的分组或分类,而不提供更多的描述。
顺序尺度:是指除提供名称描述外,还可对事物进行排序。
间隔尺度:指能够提供两个测度之间的数量间隔。
比率尺度:是指在两个测度之间,可以比较其比例关系。
统计指标六要素
指标名称:指描述指标的文字。
计量单位:指标的计量尺度。
计算方法:计算方法指在对总体进行测度时所使用的方法和注意事项。
时间限制:该指标描述的对象在时间上的范围。
空间限制:该指标所描述的对象在空间上的范围。
指标数值:指标的最终计算结果,以数字形式表现。
二.统计调查的分类
按范围分类:全面调查、非全面调查
全面调查是指对总体的全部单位均进行调查,也称为普查。全面调查由于是对全部单位进行的调查,因此不会出现以偏概全的误差。
全面调查存在着如下一些缺陷:
成本大、周期长:由于全面调查要涉及到总体的所有单位,而总体单位数有时多达数万人甚至上亿人,进行普查的工作量是非常大的。
经济上不可行:有一些调查如果采用普查的方式,在经济上成本过大,超过了调查可能带来的收益,从而是不可行的。
对于破坏性调查,不可能进行普查:有一些调查活动本身对于调查对象是有破坏性的。
质量控制困难:由于全面调查涉及的单位数较多,调查人员多、时间长,质量控制往往难以保证。如果不能保证调查过程中手段的严格,就难以保证调查质量。
非全面调查是指仅对总体中的一部分单位进行调查,由这一部分单位的情况来反映总体的情况。非全面调查主要包括三种方式:
重点调查。对总体中影响全局的主要单位进行调查,而对不影响全局的单位不进行调查。重点调查关注的是宏观现象,对于微观主体的状况不进行深入研究。
典型调查。对总体中具有代表性的单位进行调查。典型调查的主要着眼点在于对各类具体单位的微观分析,而不关注整体的宏观情况。
抽样调查。
按方法分类:观察法、采访法、报告法、问卷调查法
三.抽样调查
概率抽样:
指总体中的单位以确定的概率进入样本。包括以下几种类型:
简单随机抽样:也称纯随机抽样,指对总体不进行任何处理的情况下,所进行的等概率抽样。所有的总体单位以一个相同的非零概率进入样本。
分层抽样:将总体按主要标志划分为若干个层,再在每一层中进行随机抽选。
等距抽样:将总体按某一标志进行排列后,按相同的间隔进行抽选。又称为机械抽样,系统抽样。
整群抽样:将总体全部单位分成若干个部分,随机抽选一部分单位,对选中的单位进行全面调查。
多阶段抽样:把整个抽样过程分为若干个阶段,逐级抽出受访者。
非概率抽样,
指单位进入样本的概率事先是未知的。非概率抽样一般是作为概率抽样的一种近似方法而进行的。包括以下类型:
便利抽样:根据方便为原则进行抽选。
判断抽样:由访问员人为判断受访者的身份,确定是否选择作为样本。
配额抽样:根据一定的身份配额抽选受访者进行调查。
滚雪球抽样:是一种针对稀疏总体进行的抽样方法,抽选时,先找到几个符合条件的受访者,然后通过这些受访者找到更多符合条件的受访者,逐步外推,直至达到要求的样本数。
四.调查误差的构成
抽样误差
抽样误差是指在抽样调查中,由于使用样本信息推断总体情况,而可能出现的误差。
非抽样误差
非抽样误差指不是由于样本的代表性,而是由于调查过程的各种其他因素而带来的误差。
非抽样误差包括下列三种类型:
抽样框误差:抽样框误差主要是指抽样框与实际的抽样总体存在差异而造成的误差。
无回答误差:所谓无回答误差是指未能从指定的样本处获得有效的回答。
计量误差:计量误差是指在对个体进行调查时,调查结果与个体的真实情况出现的差异。
五.滚雪球式抽样
是一种针对稀疏总体进行的抽样方法,抽选时,先找到几个符合条件的受访者,然后通过这些受访者找到更多符合条件的受访者,逐步外推,直至达到要求的样本数。
第三章 描述统计
一.数据分组
1.分组标志
一批数据可以按不同的标志进行分组,选择分组标志要根据研究目的进行。
2.组数
按同一标志,可以将数据分成不同数量的组。
3.组距
组距是指每个组的范围跨度。
4.组限
组限指组与组之间的界限。
5.组中值(组中值的计算)
组中值是一个组中处于中间位置的值,往往用以代表一个组的平均状况。

对于缺上限或者缺下限的组,组中值的计算有几种不同的情况
(1)根据邻近组组距推算


(2)对于缺下限组而言,当邻近组组距过大时,使用上限的一半计算。
(3)根据现实情况人为确定。
二.次数分配
次数分配是指观察值按分组标志分配在各组内的记录数。
各组中观察值的数量称为次数,也称频数。各组次数与总次数的比例,称为频率。
四.总量指标和相对指标
总量指标是反映社会经济现象总体规模或水平的指标,又称为绝对数。
相对指标是两个有联系的总量指标对比计算的比率,又称为相对数。
根据相比较的总量指标之间的关系不同,相对指标可以划分为若干种类型:
(1)结构相对指标

(2)比例相对指标

(3)强度相对指标

(4)比较相对指标

(5)动态相对指标

五.描述总量指标和相对指标的一些常用术语
1.静态比较与动态比较
将同一时期的统计指标放在一起进行比较,称为静态比较。将不同时期的统计指标放在一起进行比较,称为动态比较。
2.基期与报告期,定基比较与环比比较
在进行动态比较时,有时会用当前的数据与过去某一时间的数据进行对比。此时,将当前的数据称为报告期数据,将用于比较的过去的数据称为基期数据。
如果观察的是若干个时期的数据,每个时期的数据均与同一个基期数据进行对比,则这种比较方法,称为定基比较。
如果在观察若干个时期的数据时,每一数据均与前一时期进行对比,则这种比较方法称为环比比较。
算术平均数(要求会计算)
算术平均数也称均值,是所有数的总和与数量之商。用公式表示为:
调和平均数
调和平均数是根据标志值的倒数计算出来的平均指标,其意义与算术平均数一致。公式为:

几何平均数
几何平均数是在数列具有连乘积特征的情况下所计算的平均数。计算公式为:
众数
众数是一组数据中出现次数最多的变量值。
众数的计算公式如下:

其中:
L表示众数组的下限;
表示众数组与前一组的次数之差;
表示众数组与后一组的次数之差;
表示众数组的组距。
中位数
中位数是位于统计数列中间位置上的数。中位数的位置计算公式为
分位数
分位数是指将一列数据K等分的各种数。
截尾均值
截尾均值是指在一个数列中,去掉两端的极端值后所计算的算术平均数,也称为切尾均值。
七.离散程度指标
1.极差
极差是数据的最大值与最小值之差,用公式表示如下:
。
2.内距
内距也称四分位差,是指第三四分位数与第一四分位数之差,用公式表示如下:
。
3.平均绝对差
平均绝对差是指各个标志值对其算术平均数的平均离差。
4.方差和标准差(要求会计算)
平均绝对差使用绝对值来消除离差的正负号,在数学处理中,具有一些不方便之处。方差是使用求平方的方式来消除正负号,便于数学处理。
方差的计算公式为:
方差的平均根称为标准差:
5.离散系数
标准差相对于平均数的大小,称为离散系数。
八.探索性数据分析
是从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,以便选择分析方法。对于在探索性数据分析中发现的数据规律,分析者需要使用特定的统计模型进行证实分析,以确定规律是否正确。
探索性数据分析有四大主题,分别是:
耐抗性:所谓耐抗性,是指分析方法对于数据局部不良行为的非敏感性。
残差:残差是指从数据中减去一个总括统计量或拟合模型后的残余部分。当残差出现异常时,数据中往往有值得注意的系统性问题。
重新表达:重新表达是指找到一个新的尺度对数据进行重新描述,以便简化分析。
图示:图示是以图形的方法描述数据,以帮助分析者看出数据、拟合、残差等行为,从而抓住想象不到的特点和常见的一贯行为。
第四章 统计指数
一.概念:
指数是反映某一时期某一社会经济现象变动情况的指标。
二.指数的计算原理
1.个体指数的计算
个体指数的计算就是用两个时期的同一指标进行直接对比。
2.总指数的计算
总指数是指涉及到若干个同类指标的指数。例如某一时期的商品价格指数,涉及到同一市场上的许多种商品,此时就涉及到多个指标的合并问题。
三.综合指数计算思路(要求会计算)
1.拉氏指数:拉斯配雷斯提出使用基期变量作为同度量因素计算出来的指数,称为拉氏指数。
2.帕氏指数:帕许提出使用报告期变量作为同度量因素计算出来的指数,称为帕氏指数。
四.总平均数指数因素分析
1.概念
平均指标在不同的时间或者不同空间上对比形成的相对数,称为总平均数指数,也称为可变构成指数。
2.结构变化影响指数
由于构成总体的个体数量比例发生变化,对总平均数产生的影响,称为结构变化影响指数。
3.固定构成指数
指在构成不变的情况下,由于个体的平均水平发生变化,而对总平均数产生的影响。
第五章 时间数列
一.时间序列的构成与表现形式
同类社会经济现象的统计资料,按时间先后顺序的排列,称为时间数列。
时间序列的一般表现形式如下:

其中各个分项的含义分别为:
T:长期趋势(Secular Trend),指社会经济现象在较长的一段时间内所表现出来的稳定的趋势性。
S:季节变动(Seasonal Fluctuation),社会经济现象表现出来的与日历周期同步的周期性。
C:循环变动(Cyclical Movement),循环变动也是一种周期性的变动,不过这种周期无法直接用日历周期来进行解释。
I:不规则变动(Irregular Variations),由各种无法解释的因素而引起的经济波动,一般不表现出明显的规律性。
二.趋势变动的测定(简答题只需答出要点)
1.修匀方法
修匀方法是指从数列本身出发,通过平均的方法,消除数列的短期波动,使数列表现出稳定的趋势性。
修匀方法包括两类:
时距扩大法
移动平均法
移动平均法是将时距扩大法进行了一个平移,从序列顶端向下,选择N个时间点进行一次平均,然后将选择范围向下移动一个时间点,再进行一次平均,依次类推。每次平均的结果,记录在N个时间点的中间位置上。
对于奇数周期的移动平均法,计算出来的平均值直接记录在居中的时间点上;对于偶数周期的移动平均法,则需要进行两次移动平均,第一次按偶数周期计算,结果分别写在居中的两个时间点中间,第二次再将居中的时间点两侧的两个移动平均结果再进行一次移动平均,计算出最终结果。
移动平均法除了选择时距之外,还可以选择移动平均计算时的权重。
移动平均法的时距选择是根据研究目的而定的:如果研究的目的是为了将周期变动的影响去除掉,则移动平均的周期需要与实际经济波动的周期一致;如果研究目的是为了修匀不规则变动,显示出周期的影响,则移动平均的周期应当大大地小于实际周期,并采用加权移动平均法,一定程度地突出实际数值。
2.拟合方法
拟合方法是从数据的内在规律性出发,利用数学模型来对数列进行拟合处理,寻找最适合数列的数学模型,并以数学模型的规律来推断时间数列的规律。
分段平均法是一种进行曲线拟合的简单方法,其做法是将时间数列的各项数值平均分为几部分,分别求各部分的平均数,然后将各个平均数标在图上,由此确定两个点或者三个点,根据这些点确定对应的曲线。
最小二乘法
三.季节变动的测定
季节变动的测定目的在于计算出季节指数,季节指数反映季节的实际数量与理论数量的差异,通常用比值表示。

1.按月平均法
按月平均法是将全年的总量分配到每个月份,作为当月的理论数量,再以各月的实际数量进行比较。
2.趋势剔除法(要求掌握具体步骤)
趋势剔除法的核心在于充分考虑了长期趋势对于时间数列的影响,在计算各月的理论数量时,使用当月的趋势值代替年平均值。
具体步骤为:
利用移动平均法,求出对应各季的趋势值;
以各季的实际数量与趋势值相除,获得各季的季节变化情况;
将各年的同一季节情况进行平均,得各季未修正指数;
进行指数修正。
第六章 抽样估计(本章无重点)
一.参数与统计量
参数是指描述总体分布状况的数;
统计量是指由样本构造出来的数。
二.影响抽样误差的因素
根据抽样误差的计算公式,可以看出,影响抽样误差的主要因素主要有下列四个方面:
(1)目标总体的变异程度:目标总体的变异程度(
)是影响抽样误差的最主要的因素之一,总体的变异程度越大,在确定样本下的抽样误差越大。
(2)样本容量:抽样误差与样本量的平方根成正比。
(3)抽样方式:有放回抽样和无放回抽样的计算公式略有不同,如果采用无放回的方式,抽样误差会略小一些。
(4)抽样的组织形式:抽样的组织形式是纯随机抽样、分层抽样、整群抽样或者多阶段抽样等方式,各种方式都有对应的误差计算公式,不同情况下的抽样误差相差也比较大。
第七章 假设检验
本章的内容已超出基础统计学原理范围,讲授时均不进行数学推导,仅提供常规处理方法。
提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis);
确定适当的检验统计量T;
规定显著性水平(犯弃真错误的概率);
计算检验统计量T的值;
作出统计决策。
第八章 方差分析与相关分析
一.方差分析
1.基本概念
方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。
方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。
2.方差分析原理
计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。
三、重点习题
(一)名词解释
总体
客观存在的,在同一性质基础上结合起来的许多个别事物的整体,称为统计总体,简称总体。
典型调查
对总体中具有代表性的单位进行调查。典型调查的主要着眼点在于对各类具体单位的微观分析,而不关注整体的宏观情况。
滚雪球式抽样
是一种针对稀疏总体进行的抽样方法,抽选时,先找到几个符合条件的受访者,然后通过这些受访者找到更多符合条件的受访者,逐步外推,直至达到要求的样本数。
帕氏指数
使用报告期权重的指数,称为帕氏指数。
参数
参数是指描述总体分布状况的数。
(二)简答题
什么是统计指标,统计指标有哪些要素?
答题要点:
描述总体特征的名称,称为统计指标。
构造一个统计指标需要注意六个方面的问题,一般称为统计指标的六要素。
(1)指标名称:指描述指标的文字。
(2)计量单位:指标的计量尺度。
(3)计算方法:计算方法指在对总体进行测度时所使用的方法和注意事项。
(4)时间限制:该指标描述的对象在时间上的范围。
(5)空间限制:该指标所描述的对象在空间上的范围。
(6)指标数值:指标的最终计算结果,以数字形式表现。
什么是概率抽样,概率抽样有哪些主要形式?
答题要点:
概率抽样指总体中的单位以确定的概率进入样本。包括以下几种类型:
(1)简单随机抽样:也称纯随机抽样,指对总体不进行任何处理的情况下,所进行的等概率抽样。所有的总体单位以一个相同的非零概率进入样本。
(2)分层抽样:将总体按主要标志划分为若干个层,再在每一层中进行随机抽选。
(3)等距抽样:将总体按某一标志进行排列后,按相同的间隔进行抽选。又称为机械抽样,系统抽样。
(4)整群抽样:将总体全部单位分成若干个部分,随机抽选一部分单位,对选中的单位进行全面调查。
(5)多阶段抽样:把整个抽样过程分为若干个阶段,逐级抽出受访者。
什么是探索性数据分析,试阐述探索性数据分析的四大主题。
答题要点:
探索性数据分析是从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,以便选择分析方法。对于在探索性数据分析中发现的数据规律,分析者需要使用特定的统计模型进行证实分析,以确定规律是否正确。
探索性数据分析有四大主题,分别是:
(1)耐抗性:所谓耐抗性,是指分析方法对于数据局部不良行为的非敏感性。
(2)残差:残差是指从数据中减去一个总括统计量或拟合模型后的残余部分。当残差出现异常时,数据中往往有值得注意的系统性问题。
(3)重新表达:重新表达是指找到一个新的尺度对数据进行重新描述,以便简化分析。
(4)图示:图示是以图形的方法描述数据,以帮助分析者看出数据、拟合、残差等行为,从而抓住想象不到的特点和常见的一贯行为。
时间数列是由哪些因素构成的?
答题要点:
同类社会经济现象的统计资料,按时间先后顺序的排列,称为时间数列。
时间序列的一般表现形式如下:

其中各个分项的含义分别为:
(1)T:长期趋势(Secular Trend),指社会经济现象在较长的一段时间内所表现出来的稳定的趋势性。
(2)S:季节变动(Seasonal Fluctuation),社会经济现象表现出来的与日历周期同步的周期性。
(3)C:循环变动(Cyclical Movement),循环变动也是一种周期性的变动,不过这种周期无法直接用日历周期来进行解释。
(4)I:不规则变动(Irregular Variations),由各种无法解释的因素而引起的经济波动,一般不表现出明显的规律性。
(三)计算题
1.某车间五个小组的工人平均工资情况如下:
组别 | 小组人数 | 每人平均工资(元) |
A | 8 | 1000 |
B | 10 | 1100 |
C | 12 | 1200 |
D | 7 | 1300 |
E | 5 | 1400 |
请计算全车间工人的人平均工资。
2.有两批设备,使用寿命情况如下(单位:小时)
甲设备 | 2200 | 2300 | 2400 | 2500 | 2600 | 2700 | 2800 | 2900 | 3000 | 3100 |
乙设备 | 2200 | 2500 | 2550 | 2580 | 2600 | 2700 | 2720 | 2750 | 2800 | 3100 |
试比较两批设备使用寿命的标准差,确定哪批设备质量更稳定。
3.某市场过去两月副食的销售情况如下
副食名称 | 8月价格 | 9月价格 | 8月销售量 | 9月销售量 |
肉类 | 8.00 | 7.80 | 5000 | 5600 |
蔬菜 | 1.20 | 1.30 | 10000 | 12000 |
蛋类 | 3.00 | 3.30 | 2200 | 2300 |
水产类 | 6.00 | 6.20 | 1000 | 1200 |
试计算该市场9月份的拉氏价格指数和帕氏销售量指数。
4.某信息台全天各时段收到的咨询电话数量有明显的变化,以下是过去六天中各时段收到咨询电话数量
日期 | 1-6时 | 7-12时 | 13-18时 | 19-24时 |
1日 | 1590 | 4331 | 6422 | 11015 |
2日 | 2579 | 6224 | 8147 | 13782 |
3日 | 2795 | 8986 | 10337 | 16157 |
4日 | 3553 | 9167 | 15779 | 20782 |
5日 | 4407 | 12900 | 18583 | 25293 |
6日 | 4753 | 14900 | 24728 | 25956 |
试用趋势剔除法求各时段咨询电话数量的季节指数。
5.从某一批钢管中抽出30支,测量其长度数据如下(单位:厘米)
97.6,98.2,98.4,98.8,98.9,98.9,98.9,99.0,99.0,99.2,99.5,99.5,99.5,99.5,99.5,99.6,99.7,99.8,99.8,99.8,99.9,99.9,100.0,100.1,100.3,100.9,101.0,102.0,102.1,102.3
试在90%置信度水平下,估计全部钢管的平均长度。
名词解释和简答题请在教材和ppt中查找答案,计算题说明如下:
计算题要有步骤、公式及结果才能得全部分数。
1.解答:
利用加权算术平均数公式
=_______。
2.解答:使用公式
计算标准差
对于甲设备:
_____,
_____
对于乙设备:
_____,
_____
所以,根据标准差判断,____________________质量更稳定。
3.解答:
拉氏价格指数:
__________
帕氏销售量指数:
__________
4.解答:
第一步:计算各季度的四季度移动平均,由于移动平均周期为偶数,需要进行两次移动平均,计算结果为
日期 | 1-6时 | 7-12时 | 13-18时 | 19-24时 |
1日 | ||||
2日 | ||||
3日 | ||||
4日 | ||||
5日 | ||||
6日 |
第二步:用原数据除以趋势值,得到各季的季节比率
日期 | 1-6时 | 7-12时 | 13-18时 | 19-24时 |
1日 | ||||
2日 | ||||
3日 | ||||
4日 | ||||
5日 | ||||
6日 |
第三步:求各季节的平均值
时段 | 1-6时 | 7-12时 | 13-18时 | 19-24时 |
平均值 |
第四步,进行指数修正
计算四个季节的平均值之和为:______
修正系数为:______
修正后各季节指数为:
时段 | 1-6时 | 7-12时 | 13-18时 | 19-24时 |
平均值 |
5.解答:使用公式
计算样本标准差为______
样本平均数的标准差为
=_______
样本平均数为_______,对应 90% 置信度水平的t值为______,则总体平均数的置信区间为___________________。
注意:《统计学》考试需要使用科学计算器,请同学们务必携带。
说明:本考试指导只适用于201903学期6月期末考试使用,包括正考和重修。指导中的章节知识点涵盖考试所有内容,给出的习题为考试类型题,习题答案要点只作为参考,详见课程讲义或课程ppt。在复习中有任何问题请到课程答疑区咨询。祝大家考试顺利!
微信扫码添加好友
如二维码无法识别,可拨打 13662661040 咨询。