曾五一 统计学导论复习重点考研真题答案

11.一名研究人员希望通过图形来说明4月份以来北京地区二手房租金每天的变化,如下哪个图形最合适(   )。

A.直方图

B.散点图

C.折线图

D.茎叶图

【答案】C

【解析】直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的;散点图是用二维坐标展示两个变量之间关系的一种图形;茎叶图是反映原始数据分布的图形;如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图,线图主要用于反映现象随时间变化的特征。


12.以下关于参数和统计量的说法正确的是(   )。

A.总体参数是随机变量

B.样本统计量都是总体参数的无偏估计量

C.对一个总体参数进行估计时,统计量的表达式是惟一的

D.样本统计量是随机变量

【答案】D

【解析】参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值,研究者所关心的参数通常有总体平均数、总体标准差、总体比例等,由于总体数据通常是不知道的,所以参数是一个未知的常数。无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数,是随机变量。


13.关于有常数项的一元线性回归方程,以下正确的是(   )。

A.判定系数等于自变量和因变量的相关系数

B.判定系数等于自变量和因变量相关系数的平方

C.自变量和因变量相关系数等于判定系数正的平方根

D.修正的判定系数等于自变量和因变量相关系数的平方

【答案】B

【解析】在一元线性回归中,相关系数实际上是判定系数的平方根。相关系数与回归系数的符号一致。


14.如果Y关于X的回归方程为y=2-x,而且这个回归方程的R2=0.81,则x与y之间的相关系数(  )。

A.r=l

B.r=-1

C.r=0.9

D.r=-0.9

【答案】D

【解析】在一元线性回归中,相关系数实际上是判定系数的平方根。。由知,x与y是负相关的。所以其相关系数为-0.9。


15.95%置信水平的区间估计中95%的置信水平是指(  )。

A.总体参数落在一个特定的样本所构造的区间内的概率为95%

B.总体参数落在一个特定的样本所构造的区间内的概率为5%

C.在用不同的样本构造的总体参数的多个区间中,包含总体参数的区间比例为95%

D.在用不同的样本构造的总体参数的多个区间中,包含总体参数的区间比例约为95%

【答案】C

【解析】如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。


16.关于单因素方差分析中的F检验(  )。

A.拒绝域在F分布曲线的右侧

B.F统计量的样本观测值可能为负值

C.拒绝域在F分布曲线的左侧和右侧

D.以上表述都不对

【答案】A

【解析】在单因素方差分析中,若,则拒绝原假设;若,则不拒绝原假设。


17.在假设检验中,如果所计算出的P值越小,说明检验的结果(  )。

A.越显著

B.越不显著

C.越真实

D.越不真实

【答案】A

【解析】P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,则有理由拒绝原假设,P值越小,拒绝原假设的理由就越充分。


18.某商场2008年12月的商品销售额为100万元,该月的季节指数等于125%(乘法模型),在消除季节因素后该月的销售额为(   )。

A.80万元

B.100万元

C.125万元

D.以上都不对

【答案】A

【解析】计算出季节指数后,将各实际观察值除以相应的季节指数,即可将季节性成分从时间序列中分离出去。即(万元)


19.在一次问卷调查中要求被调查者直接填写出个人的民族、婚姻状况、居住地的邮政编码、年龄和收入。以下说法不正确的是(  )。

A.民族是定性变量

B.邮政编码是定量变量

C.年龄的计量尺度是定比尺度

D.收入数据是定量数据

【答案】C

【解析】变量分为定性变量和定量变量。定性变量是指观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别的变量。定量变量是指可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异的变量。定距尺度也称等距尺度或区间尺度,是一种不仅能将变量(社会现象)区分类别和等级,而且可以确定变量之间的数量差别和间隔距离的方法。定比尺度也称比例尺度或等比尺度,是一种除有定距尺度的全部性质之外,还有测量不同变量(社会现象)之间的比例或比率关系的方法。由此可知C项年龄的计量尺度属于定距尺度。


20.下列指数中属于质量指数的是(   )。

A.消费者价格指数

B.销售量指数

C.GDP增长率

D.销售额指数

【答案】A

【解析】数量指标指数是反映数量指标变动程度的相对数,如商品销售量指数、工业产品产量指数等,数量指标通常采用实物计量单位。质量指数指标是反映品质指标变动程度的相对数,如产品价格指数、产品单位成本指数等,质量指标通常采用货币计量单位。


二.简答题(本题包括1-5题共5个小题,每小题10分,共50分)。

1.简述假设检验的过程。

答:假设检验的过程如下:

(1)根据所研究问题的要求提出原假设(或称为零假设、无效假设)和备择假设,确定显著性水平。显著性水平为拒绝假设检验是犯第一类错误的概率。

(2)选择合适的检验方法,确定适当的检验统计量,确定统计量的分布,并由假设计算其数值。

(3)根据统计量确定值,做出统计推断。根据计算的统计量,查阅相应的统计表,确定值,以值与显著性水平比较,若,则拒绝,接受;若,则不拒绝。


2.请给出你所知道的概率抽样的组织方式。

答:概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

调查的实践中经常采用的概率抽样方式有以下几种:

(1)简单随机抽样。简单随机抽样指从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的;

(2)分层抽样。分层抽样是指将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计;

(3)整群抽样。整群抽样是指首先将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查;

(4)系统抽样。系统抽样是指将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位;

(5)多阶段抽样。采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查;因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样;这里,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多,就称为多阶段抽样。


3.在盒子图(箱线图)的作图中,会使用哪些描述指标。

答:箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。由上面叙述可知,箱线图使用的描述指标有:最小值、第一四分位数、中位数、第三四分位数与最大值。


4.下列调查问卷中的提问都有问题,请修改。

(1)您和您爱人是否对现有住房满意?

(2)您最近一次是几点上班的?

(3)绝大多数喝过明光牛奶的人都认为它口味纯正,您认为是这样的吗?

答:(1)您对现有住房满意吗?您爱人呢?

(2)您最近一次的工作是几点上班?

(3)您认为明光牛奶的口味纯正吗?


5.如果有百分之五的人是左撇子,而小明和他弟弟都是左撇子;那么小明和他弟弟都是左撇子这个事件的概率是不是0.05×0.05=0.00257?为什么?

答:不是。

显然,小明和他弟弟都是左撇子的事件不是独立的,所以这种计算方法错误。

当两个事件相互独立时, (1)

当两个事件不相互独立时, (2)

记事件A为小明是左撇子,事件B为小明的弟弟是左撇子。显然小明是左撇子和他弟弟是左撇子这两个事件不相互独立,所以选择第二个公式计算小明和他弟弟都是左撇子这个事件的概率。


三、计算与分析题(本题包括1-3题共3个小题,第1题10分,第2-3题30分,共70分)

1.离散型随机变量X的概率分布率如下。


(1)确定概率分布率中a的值。

(2)试给出随机变量X的分布F(x)。

(3)计算随机变量X的均值和方差。

解:(1)根据离散型随机变量的概率分布列的正则性,即可知:0.2+0.1+0.3+a=1,得a=0.4。

(2)当时,;

当时,;

当时,;

当时,;

当时,。

所以随机变量的分布为:

(3)



2.一家紧急救护中心目前每天的值班护士人数相同。表1是2010年11月1日至2010年11月26日到紧急救护中心的病人数(紧急救护中心周六,周日不营业),表2和表3分别是表l数据的描述统计和方差分析的结果。

根据表1、表2和表3中的数据和统计分析结果,请你替这家紧急救护中心的主任给他的上级主管部门撰写一份报告,阐明根据一周每天病人人数安排相应的值班护士人数的理由。

报告至少涵盖下面两项内容:

(1)一周中每天的病人人数是否存在差异?

(2)如果存在差异,哪些天似乎是最繁忙的?




答:

(1)提出假设:

:,

:不完全相等

由表3方差分析可知,用于检验每天病人的平均人数的P-value=6.26E-12,拒绝原假设,(i=1,2,… 5)不完全相同。表明周一至周五每天病人的平均人数之间有显著差异。

(2)由表二我们知道周一至周五每天病人的平均人数里周一和周五最多,周四病人的平均人数最少,故可减少周四相应的值班护士人数增派安排到周一和周五,以达到护士人员的合理安排优化配置。

报告略。


3.某汽车租赁公司的财务主管发现有位司机报销的年度维修费用过高,你怀疑他和汽车维修公司合伙,开出虚高的发票。这位财务主管收集了5位非常可靠的司机的汽车年度维修费用和对应的汽车使用年限数据(见表4)。以年度维修费用为因变量y,相应汽车的使用年限为自变量x,建立回归模型

y=α+βx+ε,或者yi=α+βxi+εi,i=1,…,6,

在EXCEL中,通过回归分析,得到表5和表6的输出结果。这位司机提交的年度维修费用发票共8001元,他的汽车的使用年限为5年。根据表5和表6,可以计算使用年限为5年的汽车对应的年度维修费用的95%置信预测区间为[4498.722,7348.021]。

请你为这位财务主管给他的上级主管部门撰写一个500字以内的报告,阐明调查这位司机的理由。

报告至少涵盖下面两项内容:

(1)解释模型的合理性;

(2)区间预测的合理性。

注:在计算预测区间时使用了下面的公式。给定汽车的使用年限xp,汽车年度维修费用的置信度为1-α的预测区间为


s是ε标准差的估计。


答:

(1)

表7 回归结果


回归统计