第一章:
1、 什么是统计学?
统计学是一门收集、分析、表述、解释数据的科学和艺术。
2、 描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。
推断统计:研究的是如何利用样本数据来推断总体特征。
3、 统计学据可以分成哪几种类型,个有什么特点?
按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。
分类数据:只能归于某一类别的,非数字型数据。
顺序数据:只能归于某一有序类别的,非数字型数据。
数值型数据:按数字尺度测量的观察值,结果表现为数值。
按收集方法不同。分为:观测数据、和实验数据
观测数据:通过调查或观测而收集到的数据;不控制条件;
社会经济领域
实验数据:在试验中收集到的数据;控制条件;自然科学领域。
按时间不同,分为:截面数据、时间序列数据
截面数据:在相同或近似相同的时间点上收集的数据。
时间序列数据:在不同时间收集的数据。
4、 举例说明总体、样本、参数、统计量、变量这几个概念。
总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)
样本:从总体中抽取的一部分元素的集合。
参数:用来描述总体特征的概括性数字度量。(平均数、标准差、比例等)
统计量:用来描述样本特征的概括性数字度量。(平均数、标准差、比例等)
变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差
别或变化。(商品销售额、受教育程度、产品质量等级等)
(对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数
值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。)
5、 变量可以分为哪几类?
分类变量:说明事物类别;取值是分类数据。
顺序变量:说明事物有序类别;取值是顺序数据
数值型变量:说明事物数字特征;取值是数值型数据。
变量也可以分为:随机变量和非随机变量;经验变量和理论变量
6、 举例说明离散型变量和连续型变量。
离散型变量:只能取有限个、可数值的变量。(企业个数、产品数量)
连续型变量:可以在一个或多个区间中取任何值的变量。(年龄、温度、零件尺寸误差)
7、 请举出统计应用的几个例子。
市场调查、人口普查等。
8、 请举出应用统计学的几个领域。
社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。
第二章:
1、 什么是二手资料?使用二手资料需要注意些什么?
什么是二手资料:已经存在的;跟研究内容有关的;别人所做的调查或研究;会被我们利用的,资料。
注意:需要进行评估:考虑原始数据收集人、收集目的、收集途径、收集时间及数据来源。
2、 比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样:以一定的入样概率,按照一定的随机性原则选取样本(即样本被选中的概率已知或可计算);技术含量高、成本高。
用于描述性、解释性、推断性研究;研究目的在于掌握对象总体的数字特征,得到总体参数的置信区间。
非概率抽样:不按照入样概率和随机性原则,而按照方便、滚雪球或配额等抽样形式选取样本;技术含量低、成本低、时效快、操作简便。
用于探索性研究;研究目的在于发现问题,为更深入的数量分析提供准备。
下面题目(略)
2.3除了自填式,面访式和电话式还有什么搜集数据的办法
试验式和观察式等
2.4自填式,面访式和电话式各自的长处和弱点
自填式;优点:1调查组织者管理容易2成本低,可进行大规模调查3对被调查者,可选择方便时间答卷,减少回答敏感问题压力。缺点:1返回率低2不适合结构复杂的问卷,调查内容有限3调查周期长4在数据搜集过程中遇见问题不能及时调整。
面访式;优点:1回答率高2数据质量高3在调查过程中遇见问题可以及时调整。缺点:1成本比较高2搜集数据的方式对调查过程的质量控制有一定难度3对于敏感问题,被访者会有压力。
电话式;优点:1速度快2对调查员比较安全3对访问过程的控制比较容易。缺点:1实施地区有限2调查时间不能过长3使用的问卷要简单4被访者不愿回答时,不易劝服。
2.6如何控制调查中的回答误差
对于理解误差,学习一定的心理学知识,记忆误差,缩短所涉及的时间范围,有意识误差,做好被调查者的心理工作,要遵守职业道德,为被调查者保密,尽量在问卷中不涉及敏感问题。
2.7怎么减少无回答
对于随机误差,要提高样本容量,对于系统误差,只有做好准备工作并做好补救措施。比如说要一百份的问卷回复,就要做好一百二十到一百三十的问卷准备,进行面访式的时候要尽量的劝服不愿意回答的被访者,以小物品的馈赠提高回复率。
第三章:
1、 数据的预处理包括哪些内容?
数据审核:从完整性和准确性方面调查原始数据(完整性:单位、个体是否遗漏;准确性:检查错误、异常值)
数据筛选:根据需要找出符合特定条件的某类数据。
数据排序:按一定顺序将数据排列,体现数据特征或趋势。
2、 分类数据和顺序数据的整理和图示方法各有哪些?
分类数据:整理:制作频数分布表,用比例、百分比、比率进行描述性分析。
图示:条形图、帕累托图、饼图。
顺序数据::整理:制作频数分布表,用比例、百分比、比率进行描述性分析。
图示:累积频数、累计频率分布图、环形图、条形图、帕累托图、饼图。
3、 数值型数据的分组方法有哪些?简述组距分组的步骤。
分组方法:单变量分组:把每一个变量值做为一组(只适合离散型变量,变量值较少)
组距分组:将全部变量值依次划分为若干区间,一个区间变量值做为一组。
(组距分组又分为:等距分组、异距分组)
分组步骤:确定组数(5,15);确定各组组距(5倍数;组距>最大变量值-最小变量值)
;根据分组整理成频数分布表。
4、 直方图与条形图有何区别?
1、 条形图用于展示分类数据;直方图用于展示数值型数据。
2、 条形图用长度表示个类别频数,宽度固定(无意义);直方图用面积表示各组频数,长度表每组频数(或频率),宽度为组距(有意义)。
3、 条形图各矩形分开排列,直方图各矩形连续排列。(分组数据具有连续性)
5、 绘制线图应注意哪些问题?
时间在横轴,观测值在纵轴;横轴纵轴长度比例大概为10:7;纵轴下端一般从0开始,数据与0距离过大的话用折断符。
6、 饼图与环形图有什么不同?
饼图:只能绘制一个样本或总体各部分的比例。
条形图:可以同时绘制多个样本或总体各部分的比例。中间有一空洞,每个样本或总体数据表现为一个环。
7、 茎叶图与直方图相比有什么优点?他们的应用场合是什么?
茎叶图在给出数据分布情况的同时,又能给出每一个原始数据(保留了原始数据的信息);
直方图用于大批量数据,茎叶图用于小批量数据。
8、鉴别图标优劣的准则有哪些?
显示数据、强调数据间的比较、有对图形的统计描述和文字描述、避免歪曲、把读者注意力集中于数据内容上、服务于一个明确的目的。
8、 制作统计表应注意哪几个问题?
合理安排统计表结构;
表头一般包括表号,总标题和表中数据的单位等内容;
表中的上下两条横线一般用粗线,中间的其他用细线;
在使用统计表时,必要时可在下方加注释,注明数据来源。
公式:组中值=(上限+下限)/2
第四章:
1、 一组数据的分布特征可以从哪进几个方面进行测度?
可以从以下三方面进行测度:
集中趋势:反映个数据向其中心值的靠拢或集中程度;
离散程度:反映各数据远离其中心值的趋势;
分布形状:数据分布的峰态和偏态;
2、 怎样理解平均数在统计学中的地位?
平均数在统计学中具有重要地位:是集中趋势的最主要测度,是一组数据的重心所在;是数据误差相互抵消的结果,利用了全部数据信息,具有无偏性;只适用于数值型数据,不适用于分类或顺序数据。
3、 简述四分位数的计算方法:
四分位数是一组数据排序后处于25%和75%位置上的值。具体计算方法是:n/4;3n/4
4、 对于比例数据的平均为什么采用几何平均?
对于比例数据采用几何平均比采用算数平均更合理。
(1G)(1G)i1inn
5、 简述众数、中位数和平均数的特点和应用场合。
众数:主要用于分类数据集中趋势的度量;是一组数据的峰值;
优点:不受极值的影响。
缺点:具有不唯一性;只有数据量较大时才有效果
中位数:主要用于顺序数据集中趋势的度量;是一组数据中间位置的代表制;
优点:不受极值的影响;数据分布偏斜程度较大时是一个不错的选择。
平均数:主要用于数值型数据集中趋势的度量;是一组数据的重心所在。
优点:利用了所有数据信息;数据误差相互抵消,具有无偏性;
缺点:易受极值影响;当数据分布偏斜程度较大时代表性差。
6、 简述异众比率、四分位差、方差或标准差的应用场合。
异众比率:分类数据的离散程度测度;
四分位差:顺序数据的离散程度测度;
方差:数值型数据的离散程度测度
7、 标准分数有哪些用途?
标准分数:Xi-/s 即:(变量值减去其平均数)/标准差
标准分数给出了一组数据中各数据的相对位置(其离平均数的距离用标准差衡量)
用途:在对多个具有不同量纲的变量进行处理时,需要对变量进行标准化处理;
检查一组数据中是否有离群值。
8、 为什么要计算离散系数?
离散系数=标准差/平均数
原因:方差和标准差反映的是数据离散程度的绝对值:一方面,受原变量值自身水平高低的影响(与变量平均数大小有关);另一方面,与原变量值得计量单位有关,计量单位不同,离散程度也不同。因此,为消除变量值水平高低和变量值单位对离散程度的影响,要计算离散系数。
9、 测度数据分布形状的统计量有哪些?
峰态系数、偏态系数。
第六章:
1、 什么是统计量?为什么要引进统计量?统计量为什么不含任何未知参数?
定义:设(X1,X2……Xn)是从总体X中抽取的容量为n的样本,如果由此构造一个函数T(X1,X2……Xn),不依赖于任何未知参数,则称函数T(X1,X2……Xn)是一个统计量。
为什么:为了使统计推断成为可能。
2、 什么是次序统计量?
设(X1,X2……Xn)是从总体X中抽取的容量为n的样本,,若样本(X1,X2……Xn)是满足如下条件的函数:每当样本得到一个观测值x1,x1……xn时,其由小到大的排序中,第i个值x(i)就作为次序统计量Xi的观测值,而X(1),X(2)……X(n)就称为次序统计量。
3、 什么是充分统计量?
统计加工过程中一点信息都不损失的统计量称为充分统计量。
4、 什么是自由度?
独立变量的个数。
5、 简述三个重要分布及正态分布间的关系。
卡方分布:设X1,X2,……Xn是n个相互独立的随机变量,且Xi~N(0,1),则X=X1^2+……+Xn^2为服从以n为自由度的卡方分布。
F分布:设X~X^2(m),Y^2~X^2(n),且X,Y相互独立,记Z=X/m/Y/n,则Z~F(m,n)
Z分布:设X~N(0,1),Y~X^2(n),且X,Y相互独立,记T=X/(Y/n)^(1/2),有T~t(n)
6、 什么是抽样分布?
样本统计量(随机变量)的概率分布是一种理论概率分布。
7、 简述中心极限定理的意义。
中心极限定理:设从均值为μ,方差为o^2的任意任意总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值为μ,方差为o^2/n的正态分布。
第七章:
1、 解释估计量与估计值。
估计量:用于估计总体参数的随机变量。
估计值:估计总体参数时计算出来的估计量的具体值。
2、 简述评价估计量好坏的标准。
无偏性:估计量抽样分布的数学期望=总体参数
有效性:对同一参数的两个无偏点估计量,拥有更小标准差的估计量更有效。
一致性:随着样本容量的增大,估计量的值越来越接近总体参数。
3、 怎样理解置信区间?
由样本统计量所构造的总体参数的估计区间。
4、 解释95%的置信区间。
95%的置信区间值通过某种方法构造的估计区间中,有95%的区间包含总体参数的真值。
5、 Za/2是标准正态分布上侧面积为a/2的z值,公式是统计总体均值时的边际误差。
6、 解释独立样本和匹配样本的含义。
独立样本:两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立。(想工人)
匹配样本:一个样本中的数据与另一个样本中的数据相互对应。
7、 简述样本量与置信水平、总体方差、估计误差的关系。
样本量越大,置信水平越高,总体方差和估计误差越小。
第八章:
1、 假设检验和参数估计有什么相同点和不同点?
相同点:是统计推断的两部分;都运用样本对总体进行推断。
不同点:推断角度不同。参数估计:用样本统计量估计总体参数,总体参数估计前未知。
假设检验:对总体参数提出假设,用样本信息验证假设成立否。
2、 什么是假设检验中的显著性水平?统计显著是什么意思?
显著性水平:原假设正确时却被拒绝的概率或风险。
统计显著:指拒绝原假设,即求出的值落在小概率区间上(拒绝域内)
3、 什么是假设检验中的两类错误?
α错误(弃真错误):原假设为真,却被我们拒绝了。
β错误(取伪错误):原假设为假,却被我们接受了。
4、 两类错误之间存在什么样的数量关系?
在样本量一定的情况下,二者是此消彼长的关系。
5、 解释假设检验中的P值。
当原假设为真时所得到的样本观察值或更极端值出现的概率。(它的大小取决于三个因素,一个是样本数据与原假设之间的差异,一个是样本量,再一个是被假设参数的总体分布。)
6、 显著性水平与P值有何区别?
显著性水平:原假设为真时拒绝原假设的概率,即拒绝域,大小由研究者自己决定。
P值:原假设为真时所得的样本观察结果或更极端值出现的概率,是实测的显著性水平。
7、 假设检验依据的基本原理是什么?
假设检验基于小概率原理:即小概率事件在一次实验中是几乎不可能发生的,而一旦发生,我们就有理由拒绝原假设。
8、 在单侧检验中,原假设和备择假设的方向应该如何确定?
将想收集证据予以支持的假设作为备择假设;将想收集证据予以否认的假设作为原假设,同时原假设应基于广泛的社会经验基础。备择假设的方向与想要证明的正确性的方向一致。备择假设和原假设互斥,且等号总在原假设上。
1、 什么是方差分析?它研究的是什么?
方差分析:通过验证个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
研究内容:研究的是分类型自变量和数值型因变量之间的关系(有没有影响)。
2、 要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?
提高检验效率:两两检验太过繁琐。
增加分析可靠性,排除错误累计概率,减少检验误差。(多次检验会增加犯α错误的概率)
3、 方差分析包括哪些类型?他们有何区别?
单因素方差分析和双因素方差分析。
区别:单因素方差分析:一个分类型自变量对一个数值型因变量的影响;
双因素方差分析:涉及两个分类型自变量。
4、 方差分析中有哪些基本假定?
正态总体;方差齐性;观测值独立
5、 简述方差分析的基本思想。
方差分析是通过对误差来源的分析判别不同总体均值是否相等,进而分析自变量对因变量的影响。
6、 解释因子和处理的含义。
因子:也称因素,是检验对象;处理:也称水平,是因素的不同表现。
7、 解释组内误差和组间误差的含义。
组内误差(SSE)是指每个水平或组的个样本数据与其组平均值误差的平方和,反映了每个样本各观测值的离散状况;
组间误差(SSA)是指各组平均值Xi与总平均值的误差平方和,反映各样本均值之间的差异程度。
8、 解释组内方差和组间方差的含义。
组内方差指因素的同一水平(同一个总体)下样本数据的方差;
组间方差指因素的不同水平(不同总体)下各样本之间的方差。
9、 简述方差分析的基本步骤。
(1)提出假设(一般提法形式如下:H0:μ1=μ2=μ3=…=μi=….μk,自变量对因变量没有显著影响, H1:μi (i=1,2,3…..,k)不全相等,自变量对因变量有显著影响)
(2)构造检验统计量(包括:计算各样本的均值,计算全部观测值的总均值,计算各误差平方和,计算统计量)
(3)统计决策。(将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策)(F=MSA/MSE)
10、 是什么是交互作用?
交互作用是指几个因素搭配在一起会对因变量产生一种新的效应的作用。
11、方差分析中多重比较的作用是什么?
通过对各总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。
12、 解释无交互作用和有交互作用的双因素方差分析。
无交互作用双因素方差分析:两个分类型自变量对于因变量的影响是相互独立的。
有交互作用双因素方差分析:除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响
13、 解释R^2的作用和含义。
R2SSA(组间SS)SST(总SS),即关系强度,也就是自变量对于因变量差异的解释程度。
因篇幅问题不能全部显示,请点此查看更多更全内容