李金昌统计学第四版复习资料docx.docx
- 文档编号:15673563
- 上传时间:2023-07-06
- 格式:DOCX
- 页数:132
- 大小:659.24KB
李金昌统计学第四版复习资料docx.docx
《李金昌统计学第四版复习资料docx.docx》由会员分享,可在线阅读,更多相关《李金昌统计学第四版复习资料docx.docx(132页珍藏版)》请在冰点文库上搜索。
李金昌统计学第四版复习资料docx
此为整本书的复习资料,若应对期末考试,
则不再考试范围内的请自动忽略。
第一章:
总论
统计含义:
统计数据、统计活动、统计学
统计学:
关于如何搜集、整理和分析统计数据的科学。
古典统计学时期国势学派——德国
政治算术学派——英国
统计学发展历程近代统计学时期社会统计学派——德国
数理统计学派——比利时
现代统计学时期:
推断统计
统计学研究对象:
现象的数量方面—统计数据
定性数据定类数据
计量尺度定序数据
定量数据定距数据
统计数据定比数据
表现形式:
绝对数、相对数、平均数
来源:
观测数据、实验数据
加工程度:
原始数据、次级数据
时空状态:
时序数据、截面数据
总体:
统计研究的客观对象全体,也称母体。
特征:
大量性、同质性、差异性
个体数量:
有限/无限总体
存在形态:
具体/形象总体
总体分类:
个体计数:
可计数/不可计数总体
人为判定个体:
自然/人为总体
个体:
组成总体的个别事物,也称总体单位。
总体与个体关系:
1.总体随个体数量可变大变小;
2.研究目的不同,总体中个体可改变;
3.研究范围不同,总体和个体角色可变换。
样本:
从总体中抽取一部分个体所组成的集合,也称字样。
其不具唯
一性,除非其实总体本身。
样本数:
总体中最多可抽取的不同样本数量。
样本与总体关系:
1.总体是研究对象,样本是观测对象,样本是总体的代表和缩影;
2.样本用来推断总体:
观测样本的目的是对总体数量特征作出判断。
3.总体和样本角色可改变
标志:
描述或体现个体特征的名称,标志在每个不同个体的结果为标志变形
表示方式品质标志:
表明个体属性特征
数量标志:
表明个体数量特征
表现结果是否相同不变标志:
每个个体上表现完全相同
分类可变标志:
每个个体上表现不同
表现个体直接程度直接标志(第一标志):
直接表明个体
属性或数量特征
间接标志(第二标志):
两个或两个
以上标志计算后(通常对比)
变量:
狭义:
可变的数量标志;变量是可变数量标志的抽象化;变量的具体数值—变量值(标志值)。
广义:
可变标志(可变数量/品质标志)。
定性变量定类变量
定序变量
定量变量定距变量
变量分类定比变量
所受影响因素确定性变量
随机性变量
是否连续离散型变量(只能取整)
连续性变量(随意取)
统计指标:
简称指标,是反映现象总体数量特征的概念及其数值。
组成:
统计指标由指标名称和指标数值两个基本部分组成。
指标名称反映所研究现象的实际内容,是对现象本质特征的一种概括;
指标数值时所研究现象实际内容的数量表现,是对总体本质特征的量的规定性,是对个体特征综合和计算的结果。
统计指标和标志的联系和区别:
区别:
1.说明对象不同:
指标说明总体的特征;标志说明个体的特征;
2.表现形式不同:
指标用数值体现;标志既有文字又有数值。
联系:
1.标志是计算统计指标的依据,即统计指标数值是根据个体
的标志表现综合而来的;
2.由于总体和个体的确定是相对的,可以换位,因而指标和标
志的确定也是相对的。
计算范围
总体指标
样本指标
反应现象不同总体标志总量
数量指标总体容量
指标反映现象内容不同反应时间状况时期指标
时点指标
质量指标相对指标
平均指标
反映现象时间状态静态指标
动态指标
第二章:
统计数据的收集、整理与显示
统计数据收集:
按照统计研究目的和任务,运用各种科学有效的方式
和方法,有针对地收集反映客观现实的统计数据的活动过程,
是整个统计活动的基础阶段,通常也称统计调查阶段。
基本要求:
准确性(核心)、及时性(信息价值体现)、完整性(分
析需要)
统计数据收集方式:
普查、抽样调查、重点调查及间接的统计调查—统计推算
普查:
根据特定的统计目的而专门组织的一次性的全面调查,用以手机所研究现象总体的全面资料(总体中所有个体都是观测单位)
分类:
1.专门建立普查机构,配备人员,如我国人口普查;2.利用观测的原始记录是记录和核算资料,发表,由观测单位填报。
如物资库存普查。
特点:
一般全国范围,涉及面广、工作量大、需要大量物力人力和财力。
抽样调查:
一种非全面调查,从总体中抽取样本,以样本推断总体。
根据抽取样本方式的不同,分为概率抽样和非概率抽样。
特点:
经济节省、时效性高、准确度高、灵活方便
概率抽样从抽样方法上看分为重复抽样和不重复抽样;从抽样组织形式上看,分为简单随机抽样、分层抽样、等距抽样、整群抽样和多阶段抽样
非概率抽样分为任意抽样、典型抽样、定额抽样、和流动总体抽样几种。
数据收集误差:
观测性误差和代表性误差。
观测性误差:
也叫登记性误差或调查性误差,事调查工作的各个环节因工作粗心或被观测者不愿很好配合而造成的所收集数据与实际
情况不符的去查,包括计量错误、记录错误、计算错误、抄写错误、汇总错误、计算机输入误差等各种人为因素干扰的误差。
在全面调查
和非全面调查中都会产生,调查范围越广、观测个体越多,产生误差可能性越大。
是一种非一致性误差。
代表性误差:
是在抽样调查中,由于样本不能完全代表总体而产生的估计结果与总体真实数量特征不符的误差。
分为系统代表性误差和偶然性代表性误差。
系统代表性误差:
由于抽样框(用于抽取样本的名录)不完善、抽样时违反随机原则、被调查者误会等因素引起的误差,等距抽样也会有这种误差。
是难以计算和控制的。
偶然性代表性误差:
也叫抽样误差或偶然性误差,是由于抽样的随机性引起的样本机构与总体结构不完全相符,从而产生的估计结果与总体真值不一致的误差,这种误差在随机抽样不可避免,但可以计算和控制。
统计分组:
根据据统计研究的目的和事物本身的特点。
选择一定的标志(一个或多个),将研究现象总体划分为若干性质不同的组或类的一种攻击研究方法。
性质:
1.兼有分与合的双重功能,是分与合的对立统一;2必须遵循“穷尽原则”和“互斥原,则即”现象总体中的任何一个个体都必须而且只能归属于某一个组,不能出现遗漏或重复出选的情况;3其目的是在同质性的基础上研究总体的内在差异性,即尽量体现出分组标志的组间差异而缩小其组内差异;4其在体现分组标志的组间差异的同时,可能掩盖了其他标志的组间差异,任何统计分组的意义都有一定的限定性。
分:
分志多少:
分:
只按一个志分
复合分:
按两个或两个以上志行叠式分,先按第一个志分,再按第二个⋯
两个志行复合分,可以用交叉式,形成交叉分表。
分志性:
品分,即属性分,体按一个或多个品志分,分志一确定,各名称、界限和数也就随之确定。
数量分,即量分,体按一个或多个数量志分。
是反映体内部数量差异的重要方法;点是合理确定数量界限和分数,其果形成量数列。
分布数列:
在分的基上,将体中的所有个体按排列,并算出各的个体数,就形成数分布。
分配在各的个体数,称数或次数,各数或次数之和称数或次数,各数于数之比称率。
将各的数或率按分的一定序加以排列,就形成分布数列。
分布数列有两个构成要素:
分所形成的各个和各的聘或率。
分:
按分志的性不同,分品志的品分布数列和按数量志分的量分布数列。
量数列又分式数列(一个量表示一个)和距式数列(一个量区表示一个的量数列)。
频数密度是频数与组距之比,频率密度是频率与组距之比,各组的
频数密度或频率密度可以进行比较。
注意:
1.最小组的下限应略低于总体的最小变量值,最大组的上限应
略大于总体的最大变量值;2.连续型变量的各组组限必须重叠
,采用“上限不在内”原则;3。
开口组:
最小组只有上限,最大组只有
下限;开口组一般按相邻组的组距加以确定,进而确定上下限。
4.
组中值,代表各组变量值的一般水平的数值,是各组上限与下限的简
单算术平均数。
第三章:
变量分布特征的描述
变量分布特征的描述:
1.变量分布的集中趋势,反映变量分布中各变量值向中心值靠拢或聚集的程度;2.变量分布的离中趋势,反映变量分布中变量值远离中心值的程度;3.变量分布的形状,反映变量分布的偏斜程度和尖陡程度。
平均指标:
将变量的各变量值差异抽象化,以反映变量值一般水平或平均水平的指标,即反映变量分布中心值或代表值的指标。
平均指标的拘役表现为平均数,平均数因计算方法不同分为数值平均数和位置平均数。
作用:
1.反映变量分布的一般水平,帮助人们对研究现象的一般数量特征有一个可观的认识;
2.利用平均指标可以对不同空间的发展水平进行比较,消除
因总体规模不同而不能直接比较的因素,以反映他们之间总体水平上
能够存在的差距,进而分析产生差距的原因。
3.利用平均指标可以对某一现象总体在不同时间上的发展
水平进行比较,以说明这种现象发展变化的趋势或规律性。
4.利用平均指标可以分析现象之间的依存关系或进行数量
上的推算
5.平均指标可以作为研究和评价事物的一种数量标准或参考。
算术平均数:
也称均值,是变量的所有取值的总和除以变量值个数的结果。
简单算术平均数:
根据未分组数据计算的,直接将变量的每一个变量值相加,除以变量值的个数。
(可简记为)
加权算术平均数:
根据变量数列,即以各组变量值(或组中值)乘以相应的频数求出各组标志总量,加总各组标志总量得出总体标志总量,再用总体标志总量除以总频数。
(可简记为
)
算术平均数的数学性质:
1.各变量值与算术平均数的离差之和等于零,
即(对于简单算术平均数)或(对于
加权算术平均数);
2.各变量值与算术平均数的离差平方和为最小值,即
或,只有当
时,等号成立。
算术平均数优缺点:
优:
1.可以利用算术平均数来推算总体标志总量,算术平均数与变
量值之乘积等于总体标志总量(变量值总和);
2.由算术平均数的数学性质知,算术平均数在数理上具有无偏性与有效性(方差最小性);
3.其具有良好的代数运算功能
局限性:
1.算术平均数易受特殊值(特大或特小值)影响;
2.根据组距数列计算算术平均数时,由于组中值具有假定
性而使得计算结果只是一个近似值,尤其是当组距数列存在开口组时,
算术平均数的准确性会更差。
调和平均数:
是平均数的一种,是变量值的倒数的算术平均数。
分为
简单调和平均数和加权调和平均数。
简单调和平均数:
当各组的标志总量相等时,所计算的调和平均数
称为简单调和平均数;设总体分为k组,每个组的标志总量都为km。
H=(可简记为H=)
加权调和平均数:
当各组标志总量不相等时,所计算的调和平均数
要以各组的标志总量为权数,其结果为加权调和平均数。
H=(可简记为H=)
简单和加权调和平均数的联系和区别:
区别在于计算过程中应用的数
据条件的不同前者以各组频数为权数,后者以各组标志总量为权数,
但它们都符合总体标志总量与总体总频数的对比关系,事实上,两者
是可以相互变通的。
对于同一现象,无论用加权或是简单调和平均数,
计算结果是相等的,无非是因数据条件不同采用了不同的计算形式。
由相对数或平均数计算平均数
不论是用加权算术平均数公式还是加权调和平均数,都要从相对数或平均数指标本身的经济含义出发来计算,这是一个很重要的原则。
几何平均数:
是计算平均比率或平均速度常用的一种方法。
分为简单几何平均数和加权几何平均数。
简单几何平均数:
就是变量的n个变量值连乘积的n次方根。
G=
(可简记为G=)
加权调和平均数:
当计算几何平均数的各种变量值出现的次数不等,即数据经过了统计分组时,则应采用加权几何平均数。
G=(可简记
为G=)
算术、调和、几何平均数的数学关系:
单从数学意义上说三者大小关
系为:
H<=G<=
位置平均数
中位数:
变量的所有变量值按定徐尺度排序后,处于中间位置的变
量值,由于处于中间位置,可以用来代表变量值的一般水平,可以预
测定量变量的集中趋势,也可测定定序变量的集中趋势,但不适用于
定类变量。
中位数确定:
1.根据未经分组的原始数据来确定
n为奇数
=
,n为偶数
2.根据变量分布数列来确定
按组距数列来计算中位数,首先要计算各组的累计频数,然后找出
中位数所在的位置,即累计次数大于或等于的组,(严格上讲是
简化起见取)。
下限公式:
(L为中位数所在组的下限,为中位数所在组的频数,为向
上累计至中位数所在组下一组止的累计频数,d为中位数所在组的组距。
)
上限公式:
U位中位数所在组的上限,为向下累计之中位数所在组上一
组的累计频数。
中位数优缺点:
优:
1.作为一种位置平均数,概念比较清晰;
2.不受变量数列中特殊值的影响;
3.组距数出现开口组时,对中位数无影响
4.当某些变量不能表现为数值但可以定序时,不能计算数值平
均数而可以确定中位数。
局限性:
1.不能像算术平均数那样进行代数运算;
2.除了变量数列的中间部分数值外,其他数值的变化都不
对中位数产生影响,因此中位数的灵敏度较低。
分位数:
以四分位数为例,分为第一、第二和第三四分位数,分别为.
位置分别为:
,.具体计算方法可参考中位数的计
算方法。
众数:
是变量数列中出现次数最多、频率最高的变量值。
众数的确定:
1.根据单项式数列确定众数直接找出频数最多或出现
频率最高的变量值即可。
2.根据组距式数列来确定众数,先要找出频数最多的
一组作为众数组,然后运用下列公式来确定众数:
下限公式:
式中
为众
数组频数与下一组频数之差,
Ld
含义与中位数公式中一样。
上限公式:
U位众数组的上限众数特点:
1.不受数列中特殊值的影响,表示某些现象的一般水平会具有较好的代表性;
2.具有较广的应用面,可用于测定任何变量的集中趋势;
3.众数只有在总频数充分多且某一组的频数明显高于其他组时才有意义,若各组的频数相差不多,则不能确定频数;
4.有时一个数列会有两个组的频数明显最多,这就会有两个众数,
该数列属于双众数数列。
中位数、众数和算术平均数的关系:
1.在变量分布完全对称(正态分布)时,中位数、众数和算术平均数三者完全相同,即
2.在变量分布不对称(偏态分布)时,中位数、众数和算术平均数三者之间存在着差异。
当算术平均数受极大值一端影响较大时,变量分布向右偏(右边
更低),三者关系为;
当算术平均数受极小值一端影响较大时,变量分布向左偏(左边
更低),三者关系为
离散指标:
反应变量值变动范围和差异程度的指标,即反映变量分布中各变量值远离中心值或代表值程度的指标(反映变量分布的离中趋势)。
作用:
1.可以用来衡量和比较平均数的代表性;
2.可以用来反映各种线下活动过程的均衡性、节奏性或稳定性;
3.为统计推断提供依据。
离散指标的测度:
全距:
变量的最大值()与最小值()之差,也叫极差,
表明变量的最大变动范围或绝对幅度。
通常用R表示,即
R=
四分位差:
是四分位数中第三个四分位数与第一个四分位数之差,也
称内聚或四分位间距,通常用表示,即
S四分位差通常与中位数结合,用以表明变量分布中间50%数值的离散程度,其值越大(小),表明变量中间数值的分布越集中(离散),中位数的代表性越好(越差)。
异众比率:
是分布数列中非众数组的频数与总频数的比值,通常用来表示,即
为众数组的频数。
平均差:
是变量的各变量值与算术平均数离差绝对值的算术平均数,表明各变量值与算术平均数的平均差距。
通常用A.D来表示,即
A.D=(根据为分局数据,可简记为
A.D=)
或
A.D=(根据变量数列,可简记
为A.D=)
平均差由于利用全部数据信息,因而比全距、四分位差等更能
比较客观反映变量分布的离散程度。
平均差越大,离散程度越
大;平均差越小,离散程度越小。
但每一个离差都取了绝对值,
数学处理不方便,数学性质不是最优,也有局限性。
方差和标准差:
方差:
各变量值与均值的离差平方的算术平均数,标准差则是方差
的平方根。
计算公式:
(根据未分组数据,可简
记为)
或
(可简记为
)
方差和标准差利用了全部数据信息,因而能准确反映变量分布的离散
程度。
方差或标准差越大,表示变量分布离散程度越大;反之,越小。
标准差和平均差相比,不仅具有平均差的优点,而且弥补了平均差的
不足,意义比平均差明确。
方差和标准差的性质:
1.常数的方差为零。
假设常数为a.常数的方差,则=0
2.若y=a+bx,a、b为常数,则y的方差与x的方差之间的关
系为;
3.标准差s是计算标准化值的依据。
假设变量的标准化统计量用Z
表示,标准化值用表示,则.(Z服从均值为零,标
标准差为1的标准正态分布,是无量纲。
通过计算标准化值可以
使处于不用均值水平、不同计量单位的变量值之间的比较成为可
能,使比较的对象找到统一标准的相对位置。
)
离散系数:
也叫离散系数变异系数或标准差系数,是变量的标准差与
均值之比,通常用来表示,即。
离散系数越大,说明变量分
布的离散程度越强,平均数的代表性越差;离散系数越小,说明变量分布的离散程度越弱,平均数的代表性越好。
偏度系数:
可以告诉我们变量分布是左偏还是右偏,受低端变量值影响大还是受高端变量值影响大。
1.利用算术平均数与众数或中位数求离差偏度系数
变动范围为(-3,3),当为正值时,变量分布正偏,当为负值时,变量分布负偏。
等于零时,变量分布属于无偏(正态分布)。
其值的绝对值月接近3,表明变量分布的偏斜程度越严重,越接近零,表明变量分布的偏斜程度越轻微。
2.利用四分位数求
取值范围为(-1,1),其值的绝对值越接近1,表明变量分布的偏斜程度越严重,值的绝对值越接近零,表明变量分布的偏斜程度越轻微。
3.利用动差法求(最常用)
令常数a为变量分布的中心,则所有的变量值与a值之差的t次
方的算术平均数就称为变量x关于a的t阶动差,即
T阶动差=(根据未分组数据,
可简记为t阶动差=)
或
T阶动差=(根据变量数列,
可简记为t阶动差=
)
当a=0时,t阶动差称为t阶原点动差,若以
表示,则
一阶原点动差为:
,即算术平均数。
二阶原点动差以此类推
当a=
时,t阶动差称为t阶中心动差,若以
表示,则
一阶中心动差为:
;
二阶中心动差以此类推
很显然,一阶中心动差
偶数阶中心动差恒为正(其中二阶
中心动差就是方差,即
)而三阶以上的奇数阶中心动差可
正可负。
当
时,表示变量分布无偏;当
>0时,表示变量分布是正
偏,当
<0时,表示变量分布是负偏。
将与标准差的立方对比,便得到动差法的偏度系数,即
当>0时,表示变量分布正偏;若<0,表示
变量分布负偏;当=0,表示变量分布两边对称,无偏。
的绝对值越接近零,表示变量分布的偏度越轻微;反之,偏度越严重。
峰度系数:
可以告诉我们根不是尖陡还是扁平,即频数(频率)分布
绝大部分集中于众数附近还是各变量值的频数(频率)相差不大(如
果各变量值的频数或频率相等,则分布呈一条直线,无峰顶可言)。
计算:
主要通过动差法,是四阶中心动差与标准差四次方相比的结果,即
K=
峰度系数的标准值为3。
当K=3时,变量分布的峰度为标准正态峰度;
当K<3时,变量分布的峰度为平顶峰度;当K>3时,变量分布的峰度为尖顶峰度。
更进一步,当K值接近于1.8时,变量分布曲线就趋向于一条水平线,表示各组分配的频数接近于相同。
当K小于1.8时,则变量分布曲线为“U”形曲线,表示变量分布的频数分配是“中间少,两头多”。
第七章相关回归分析
现象之间的数量关系,大致可以分为两种不同的类型:
函数关系和统计相关关系。
函数关系指现象之间的确定性的数量依存关系。
(两个变量x与y之间的函数关系一般可以表示为y=f(x))。
相关关系:
也称统计相关,是指现象之间存在的非确定性的数量依存
关系。
数学一般形式:
y=f(x)+a,其中a为随机误差。
值得注意的
是,相关关系不能通过个别现象体现出其关系的规律性,必须在大量
现象中才能得到体现。
相关关系分类:
1.按照相关关系涉及的因素(变量)的多少,可分为单相关和复相关;
2.按照相关关系的表现形式不同,可分为线性相关于非线性相关。
对于一元相关,即为直线相关和曲线相关;
3.对于单相关,按照现象数量变化的方向不同,可分为正相关和负相关
4.按照相关程度不同,可以分为完全相关、不完全相关和无相关。
相关分析:
广义上讲,对两个或两个以上现象之间数量上的不确定性依存关系进行的统计分析,即为相关分析。
内容:
1.判断
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 金昌 统计学 第四 复习资料 docx