《管理数量方法与分析》总复习资料.docx
- 文档编号:13764105
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:76
- 大小:87.93KB
《管理数量方法与分析》总复习资料.docx
《《管理数量方法与分析》总复习资料.docx》由会员分享,可在线阅读,更多相关《《管理数量方法与分析》总复习资料.docx(76页珍藏版)》请在冰点文库上搜索。
《管理数量方法与分析》总复习资料
第一章:
数据分析的基础
1、数据分组(★):
就是对某一变量的不同取值,按照其自身变动特点和研究需要划分成不同的组别,以便更好地研究该变量分布特征及变动规律。
2、数据分组的种类:
(★)
(1)若变量是离.散.型.变.量.,且取值只有不多的几个时,则采用单.项.分.组.。
这种分组的做.法.是:
将变量的
不同取值作为一组的组别,变量有多少个不同取值就划分成多少组。
(2)若变量是连.续.型.变.量.,或者是
取值较多的离散型变量,则需采用组.距.分.组.。
3、变量数列:
(★)在对变量取值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成的数列,称为变量数列。
由于对变量分组有单项分组和组距分组两种不同的方法,因而分组后所形成的变量数列也有单.项.数.列.和组.距.数.列.两种。
4、
(1)组别(★):
一个是由不同变量值所划分的组。
(2)频数(★):
各组变量出现的次数。
(3)
频率(★):
各组次数与总次数之比叫比率。
5、相对数权数的频率满足的条件:
(★★)
(1)非.负.,各组的频率都是介于0和1之间的分数;
(2)
各组频率之和必须等于1.(或100%)。
6、变量数列的编制:
(★★★)
(1)确.定.组.数.:
采用组距分组方法对变量的取值进行分组,各组的区间
长度可以相等,也可以不等。
各组区间长度相等的称为等距分组,各组区间长度不等的称为异距分组。
斯特吉斯公式:
m=1+3.322lgN(m代表组数,N代表变量值的个数)。
(2)确.定.组.距.:
在组距分组中,每组的上限和下限之间的距离称为组距。
(3)确.定.组.限.。
在组距分组中,每组的最大值称为该组的上限,
每组的最小值称为该组的下限,上限和下限统称为组限。
(4)计.算.各.组.的.次.数.(.频.数.).。
在确定了各组的组限以后,接着就需要计算出所有变量值中落入各组之内的变量值的个数,每组所分配的变量值的个数也就是该组的次数,又称频数。
(5)编.制.变.量.数.列.。
当各组变量值的变动范围和各组的次数确定之后,接下来就可以将各组变量值按照从小到大的顺序排列,并列出相对应的次数,就形成变量数列。
7.累计频数的种类
(1)向.上.累.计.频.数.(.或.频.率.).:
由变量值低的组向变量值高的组依次累计频数(或频率)。
(2)由变量值高的组向变量值低的组依次累计频数(或频率)。
8、变量数列的分布图(
★★★)
(1)柱.状.图.:
是用顺序排的柱状线段的高低来显示各组变量值出现次数的多少或频率的高低的图形。
柱
状图通常用来显示单项分组的次数分布。
(2)直.方.图.:
是用顺序排列的各区间上的直方条表示变量在各
区间内取值的次数或频率的图形。
直方图可用来显示变量的组距分组次数分布。
(3)折.线.图.:
在直方图
中将各直方条顶端中点用线段连接起来,并在最低组之前和最高组之后各延长半个组距,将所连折线在连接到横轴上,所形成的图形就称为折线图。
折线图也可用来显示组距分组次数分布。
9、分布中心的概念(★):
指距离一个变量的所有取值最近的位臵:
揭示变量的分布中心有着十分重要的意义。
10、分布中心的意义:
(★★)
(1)变量的分布中心是变量取值的一个代表,可以用来反映其取值的一般水平。
(2)变量的分布中心可以揭示其取值的次数分布在直角坐标系上的集中位臵,可以用来反映变量分布密度曲线的中心位臵,即对称中心或尖峰位臵。
11、分布中心的测度指标及其计算方法:
(★★★)
(1)算.术.平.均.数.:
算术平均数又称均值,它是一组变量值的总和与其变量值的个数总和的比值,是测度
变量分布中心最常用的指标。
算术平均数的计算方法:
简单算术平均数和加权算术平均数两种。
(2)简.单.算.术.平.均.数.(★★★)。
n
x代表算数平均数;∑xi代表变量值总和;n代表变量值个数之和。
i=1
(3)加.权.算.术.平.均.数.:
(★★★)
①组.距.数.列.算.术.平.均.数.的.计.算.方.法.:
组距数列与单项数列计算算术平均数的方法的区别在于,组距数列首
先需要计算出每个组的组中值,组中值就是各组变量值的代表值,其计.算.公.式.如下:
n
②组.距.数.列.算.术.平.均.数.的.计.算.方.法.:
组距数列与单项数列计算算术平均数的方法的区别在于,组距数列首先需要计算出每个组的组中值,组中值就是各组变量值的代表值,其计.算.公.式.如下:
组中值=上限+下限
2
12、应用算术平均数应注意的几个问题:
(★★)
(1)算术平均数容易受到极端变量值的影响。
(2)加
权算术平均数大小起着权衡轻重的作用,但不取决于它的绝对值的大小,而是取决于它的比重,如果各组绝对数权数按统一比例变化,则不会影响平均数的大小,故比重(相对数)权数更能反映权数的实质。
(3)根据组距数列求加权算术平均数时,需用组中值作为各组变量值的代表,它是假定各组内部的所有变量值是均匀分布的,但实际并非如此,故由组距数列计算的平均数在一般情况下只是一个近似值。
13、算术平均数的数学性质:
(★★)
(1)各变量值与算术平均数离差的总和等于零。
(2)各变量值与算术平均数离差平方和为最小。
(3)变量线性变换的平均数等于变量平均数的线性变换。
(4)n个相互独立的变量的代数和的平均数等于其平均数的代数和。
(5)n个相互独立变量乘积的平均数等于其平均数的乘积。
14、算术平均数的变形−调和平均数:
(★★)(具体应用详见课本P17例1.8)
x=∑xf
f
=∑m
∑
1m
x
15、中位数的概念:
(★★★)指将某一变量的变量值按照从小到大的顺序排成一列,位于这列数中心位臵上的那个变量值。
16、中位数的确定:
(★★★)
(1)未.分.组.资.料.中.位.数.的.确.定.。
(★★★)
由未分组资料求中位数,首先将所有的变量值由小到大排列,然后用n+1确定中位数所处的位臵,最
2
n
后寻找该位臵的变量值,即为中位数。
若变量值的个数n为偶数时,则应以排在数列中第
2
误!
未找到引用源。
项变量值得简单算术平均数作为中位数。
(2)单.项.数.列.中.位.数.的.确.定.。
(★★★)
项与n+1错
2
由单项数列确定中位数,首先应计算向上或向下累计次数;然后由公式∑f的计算结果与累计次数的
2
结果确定中位数在单项数列中所处组的位臵,则改组位臵上的变量值就是中位数。
(3)组.距.数.列.中.位.数.的.确.定.。
(★★★)
由组距数列确定中位数,首先根据组距数列资料计算向上或向下累计次数,然后由公式∑f的计算结
2
果与累计次数的结果来确定中位数在数列中所在的组,最后由下列两个公式中任意一个均可确定中位数。
me=L+
∑f
-Sm-1
2
fm
⨯d(下限公式);me=U+
∑f
-Sm+1
2
fm
⨯d(上限公式)
me代表中位数;L、U分别代表中位数所在组的下限和上限;Sm-1代表变量值小于中位数的各组次数之
和;Sm+1代表变量值大于中位数的各组次数之和;fm代表中位数所在组的次数;d代表中位数所在组的组距。
17、众数(★★★)
(1)众数的概.念.(★):
指某一变量的全部取值中出现次数最多的那个变量值。
(2)众数的确.定.。
(★★★)
①若掌握的某一变量的一组未.分.组.的.变.量.值.,则只需要统计出现次数最多的那个变量值即可;若掌握的资
②若掌握的资料是组.距.数.列.,要确定众数,首先依据各组变量值出现次数的多少确定众数所在的组,然后采用上限公式或者下限公式确定众数即可。
m0=L+
∆1⨯d
∆1+∆2
m0=U-
∆2⨯d
∆1+∆2
m0代表众数;L、U分别代表众数所在组的下限和上限;d代表众数所在组的组距;∆1代表众数的次数与
前一组次数之差;∆2代表中数组的次数与后一组的次数之差。
18、算术平均数、中位数和众数三者之间的关系:
(★★)
(1)在.正.态.分.布.的.情.况.下.,变量值的分布是以算术平均数为中心,两边呈对称型,离中心越远的变量值
的次数越少,离中心越近的变量值得次数越多,其分布形状类似钟形,这时算术平均数、中位数和众数在数量上完全相等,即错误!
未找到引用源。
=me=m0。
(2)在.偏.态.分.布.的.情.况.下.,当有.极.大.变.量.值.出.现.时,算术平均数向右偏离众数,中位数居中,众数的位
臵在图形的最左边,它们三者之间在数值上的关系是m0 未找到引用源。 这种偏态分布称为正.偏. 分.布.或.右.偏.分.布.;当有极.小.的.变.量.值.出.现.时,也是对算术平均数的影响最大,它向左远离众数;中位数次 之,其位臵仍处于三者的中间;众数不受影响,其位臵处于三者的最右边,它们三者之间在数量上的关系是错误! 未找到引用源。 从上述偏态分布可以看出,无论是左偏还是右偏,中位数总是在众数与算术平均数的中间位臵。 经验表明,在适度偏斜的情况下,众数与中位数的距离约为中位数与算术平均数距离的2倍,即m0=3me-2错误! 未找到引用源。 19、离散程度测度的意义(★) (1)通过对变量取值之间离散程度的测定,可以反映各个变量值之间的差异大小,从而也就可以反映分布中心指标对各个变量值代表性的高低。 (2)通过对变量取值之间离散程度的测定,可以大致反映变量次数分布密集度曲线的形状。 20、离散程度的测度指标(★★★) (1)极.差.(★★): 极差又称全距,是指一组变量值中最大变量值与最小变量值之差,用来表示变量的 变动范围。 通常用R代表全距。 R=max(xi)-min(xi) 在单.项.数.列.的情况下,极差=最大一组变量值-最小一组变量值;在组.距.数.列.的情况下,极差=最大一 组变量值的上限值-最小一组变量的下限值,假若在组距数列中出现了开口值,则极差无法计算。 (2)四分位全距 ①四分位全距的概.念.: 四分位全距是指将一组由小到大排列的变量数列分成四等分,可得到三个分割点Q1、 Q2、Q3,分布称为第一个、第二个、第三个四分位数;然后用第一个四分位数Q1减去第三个四分位数Q3所得差得绝对值,即为四分位全距。 四分位全距其实是指一组由小到大排列数据的中间50%数据的全距。 四分位全距的计算公式为: IQR=│Q1-Q3│: 式中: IQR代表四分位全距。 ②四分位全距的计算。 在未分组资料的条件下,首先将变量值按照由小到大顺序排列,然后确定Q1与Q3。 (3)平均差(★★★) ①平均差的概.念.: 平均差是变量各个取值偏差绝对值的算术平均数。 ②平均差的计.算.。 1)若所掌握的资料是未.分.组.资.料.,则计算平均差应采用简单平均法,其计算公式为: A.D= n ∑xi-x i=1 n 式中: A.D代表平均差;xi代表各变量值;错误! 未找到引用源。 代表算术平均数;n代 表xi与错误! 未找到引用源。 离差的个数和。 2)若掌握的是已.分.组.的.变.量.数.列.资料,则计算平均差应采用加权算术平均法。 其计算公式为: A.D= n ∑ i=1 xi-xfin 式中: xi代表各组变量值;fi代表各组变量值出现的次数。 ∑fi i=1 (4)标准差(★★★) ①标准差的概.念.: 标准差是变量的各个取值偏差平方的平均数的平方根,又称为根方差。 ②标准差的计.算.。 1)当所掌握的资料是未.分.组.资.料.,计算标准差应采用简单平均的方法。 其计算公式为: n ∑(xi-x)2 σ=i=1 n 2)当所掌握的资料是已.分.组.的.变.量.数.列.资料,则计算标准差应采用加权平均算术计算法。 其计算公式为: n i ∑(xi-x)2f σ =i=1 错误! 未找到引用源。 n ∑fi i=1 (5)方差(★★★) ①概.念.: 标准差的平方称为方差。 ②方差的数.学.性.质.如下: 1)变量的方差等于变量平方的平均数减平均数的平方。 2)变量与算术平均数离差平方和具有最小的性质,即变量与算术平均数计算得方差小于变量与任何其他常数计算的方差。 3)变量线性变换的方差等于变量的方差乘以变量系数的平方。 4)n个独立变量代数和的方差,等于各变量方差的代数和。 5)n个独立变量代数和的标准差不大于各变量标准差的代数和。 (6)变异系数(★★★) ①概.念.: 各个衡量变量取值之间绝对差异的指标与算术平均数的比率,通称为变异系数。 ②变异系数的种.类.: 极差系数、平均差系数和标准差系数等。 各变异系数的计算公式分别为: VR=错误! 未找到引用源。 ×100%VA.D=错误! 未找到引用源。 ×100%Vσ=错误! 未找到引用源。 ×100% ③变异系数的作.用.: 变异系数主要用于不同变量的各自取值之间差异程度的比较。 21、偏度与峰度的概念: (★) ①变量分布的偏斜程度,是指其取值分布的非对称程度; ②变量分布的峰度,是指其取值分布密度曲线顶部的平坦程度或尖峭程度。 22、测量偏度和峰度的作用: (★★) (1)可以加深人们对变量取值的分布状况的认识,如可以使人们清楚了解变量的取值是否对称,或非对称程度有多大,以及变量的取值是否有特别的集聚,集聚程度有多高; (2)人们还可以将所关心的变量的偏度指标值和峰度指标值与某种理论分布的偏度指标值和峰度指标值进行比较,以判断所关心的变量与某种理论分布的近似程度,为进一步的推断分析奠定基础。 23、偏度的测度(★★★) (1)直.观.偏.度.系.数.: 直观偏度系数是利用描述变量分布中心的不同指标之间的直观关系而确定的测度变 量分布偏斜程度的指标。 ①皮.尔.逊.偏.度.系.数.: 用算术平均数与众数之间的离差来反映变量的偏斜程度。 皮尔逊偏度系数的数值在-3 —+3的范围之内。 ②鲍.莱.偏.度.系.数.: 鲍莱偏度系数的数值在-1—+1之间。 (2)矩.偏.度.系.数.: 矩偏度系数就是利用变量的矩来确定的变量分布偏斜程度的指标。 当变量分布为正态分布时,矩偏度细数为0;当变量为正偏时,该系数为正;当变量为负偏时,该系数为负;矩偏度系数的值越大,变量分布的偏斜程度越大;矩偏度细数越接近0,变量的偏斜程度越小,即越接近于对称。 24、峰度的测度(★★★): 主要用峰度系数指标。 变量为正态分布时,峰度系数为3,当系数小于3时,则变量分布密度曲线的顶峰比较平坦;若峰度系数大于3,变量分布密度曲线的顶峰比较尖奇峭。 25、两个变量的相关关系: (★★★) (1)两变量之间存在着确.定.性.的.依.存.关.系.,即通常所讲的函数关系,这种关系表明一个变量的取值完全 由另一个变量的取值所决定 (2)两个变量之间没.有.任.何.关.系.,即通常所讲的不相关,也就是说,两个变 量之间的任何一个变动都不会对另一个产生影响(3)两个变量之间存在着不.确.定.的.依.存.关.系.,即通常所 讲的相关关系,它们之中一个变量的取值虽然受另一个变量取值的影响,但却并不完全由另一个变量的取值所决定,其取值除了受另一个变量取值的影响外,还受一些偶然的随机因素的影响。 26、测度两变量相关程度的指标: (★★★) (1)协.方.差.: (★★★) ①概.念.: 协方差是两个变量的所有取值与其算术平均数离差乘积的算术平均数,它可以用来测定两变量之 间相关关系的方向和密切程度。 根据所掌握的资料不同,协方差的计算分别采用简单算术平均法和加权算术平均法。 ②若对两个变量X和Y同时进行n次观测(注.释.: 所.有.观.测.值.只.出.现.一.次.),所获得x和y的成对观测 数据为: (x1,y1),(x2,y2),…,(xn,yn)则两变量X和Y的协方差的计算需采用简单算术平均法,其计. 算.公.式.为: n Sxy =1∑ ni=1 (xi -x)(yi -y) ③若两个变量X和Y的每对观.测.值.(.x..i.,y..i).出.现.的.次.数.不.是.一.个.,而是由fi个,如在两变量复合分组列联 表中,两个变量的每对观测值就出现多次,则这两个变量协方差的计算需采用加权算术平均法,其计.算.公. 式.为: 1n Sxy ∑(xi-x)(yi-y)fi n = i=1 n ∑fi i=1 ④协.方.差.代.表.的.含.义.: 协方差的数值可能是正值,也可能是负值。 协方差的正值越大,表明X与Y的正相关关系越强;协方差的负值越大,表明X与Y的负相关关系越强。 用协方差来度量X与Y线性相关关系的强弱,协方差的值的大小受X与Y的计量单位的影响。 (2)相关系数: (★★★) ①概.念.: 相关系数是两个变量的协方差与它们标准差之积的比率,它是专门用来测定两个变量线性相关方 向和程度的一个指标。 ②相关系数的种.类.: 1)若是根据总.体.数.据.计算,相关系数通常用ρxy表示,其计.算.公.式.为: ρ=σxy x y xyσσ σxy表示总体的协方差;σx表示总体变量x的标准差;σy表示总体变量y的标准差。 2)若是根据样.本.数.据.计算,相关系数通常用表示,其计.算.公.式.为: γ=Sxy S S xy xy Sxy表示样本的协方差;Sx表示样本变量x的标准差;Sy表示样本变量y的标准差。 ③相.关.系.数.取.值.含.义.: 无论总体相关系数ρxy还是样本相关系数γxy,取值范围在-1—+1之间,当相关系数 小于零时,则表明x与y之间为负相关;当相关系数大于零时,则表明x与y之间为正相关;当相关系数等于零时,则表明x与y之间不存在线性相关关系;当相关系数为-1时,则表明x与y之间是完全负相关;当相关系数为+1时,则表明x与y之间是完全正相关;当相关系数越接近于零时,则表明x与y之间的线性相关关系越弱;当相关系数越接近于+1或者(-1),则表明x与y之间的线性相关关系越强。 第二章: 概率与概率分布 1、随机事件相关概念(★) (1)确.定.性.现.象.: 一定条件下必然出现的现象 (2)随机现象: 事先无法准确预知其结果的现象(3)随 机事件(简称事件): 随机试验中可能发生也可能不发生的结果(4)基本事件: 实验结果中的每一个结果称为一个样本点(5)样本空间: 所有实验结果组成的集合,用Ω表示(6)必然事件: 随机实验中必然出现的结果(7)不可能事件: 不可能出现的结果,用φ表示。 2、事件的关系与运算( ★★) (1)事.件.的.包.含.与.相.等.。 若事件A发生必然导致事件B发生,则称事件B包含事件A,或称事件A包含 于事件B,即事件A是事件B的子集。 若事件A包含事件B,事件B也包含事件A,则称事件A与B相等。 (2)事.件.的.并.(.也.称.事.件.的.和.).。 若事件A与事件B至少有一个发生,则记为A∪B(或A+B),并且 称为事件A与B的并(和)。 (3)事.件.的.交.(.也.称.事.件.的.积.).。 若事件A与事件B同时发生,则记为A∩B(或AB),并且称为事件 A与B的交(积)。 (4)事.件.的.差.。 若事件A发生而事件B不发生,则记为A-B,并且称为事件A与B的差。 (5)互.不.相.容.事.件.(.也.称.互.斥.事.件.).。 若事件A与B不可能同时发生,也就是说,AB是不可能事件,即AB=φ,则称事件A与B是互不相容事件,或者称A与B是互斥事件。 (6)对.立.事.件.。 若事件A与事件错误! 未找到引用源。 满足: A错误! 未找到引用源。 =φ和A∪错误! 未找 到引用源。 =Ω,则称错误! 未找到引用源。 是A的对立事件,或者称A是错误! 未找到引用源。 的对立事件。 (7)完.备.事.件.组.。 设A1,A2,…,An是有限或可数个事件,若其满足: AiAj=φi≠j,I,j=1,2,…,n,A1 ∪A2∪…∪An=Ω,则称由A1,A2,…,An所组成的事件组为一个完备事件组。 3、随机事件的概率(★★) (1)概.率.的.定.义.(★) 定义: 随机事件A发生的可能性大小的度量(数值),称为事件A发生的概率。 记作P(A)。 (2)概.率.的.性.质.: (★★★) ①0≤P(A)≤1②P(Ω)=1P(φ)=0③若A与B互不相容(也称互斥),则有: P(A∪B)=P(A)+P(B)④若A与错误! 未找到引用源。 是对立事件,则有P(A)+P(错误! 未找到引用源。 )=1或P(A)=1-P(错误! 未找到引用源。 )⑤若A与B是任意两事件,则有: P(A∪B)=P(A)+P(B)-P(AB)此式称为概率的加法公式。 4、古典概率(★★)若一个随机试验的样本空间是由有限个样本点组成,且每个样本点在实验中是等可能地出现,那么, 事件A发生的概率就可用下列公式来计算: P(A)=错误! 未找到引用源。 =错误! 未找到引用源。 5、条件概率与事件的独立性( ★★) (1)条件概率的定.义.: 在随机试验中,有时除了需要知道事件B发生的概率P(B)外,还需要知道在事件 A已经发生的条件下事件B的概率,我们把这个概率记作P(B∣A)。 定.义.: 设A、B是两个随机事件,且P(A)>0,则称 P(B∣A)=错误! 未找到引用源。 为在事件A发生的条件下,事件B发生的条件概率。 (2)条.件.概.率.的.计.算.方.法.(★★) ①利用条件概率的定义公式式计算P(B∣A)。 ②采用缩减样本空间的方法,即根据事件已经发生的信息缩减样本空间,再在此基础上计算B的概率。 (3)乘.法.公.式.(★★★) P(AB)=P(A)P(B∣A)(P(A)>0)此式称为概率的乘法公式,简称乘法公式。 (4)全.概.率.公.式.和.贝.叶.斯.公.式.(★★) 若设随机试验E的样本空间为Ω,B1,B2,…,Bn是一个完备事件组,且P(Bi)>0,(i=1,2,…,n),则对E的任一事件A,都有: P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+……+P(Bn)P(A∣Bn)=错误! 未找到引用源。 称为全概率公式。 P(Bi)P(A|Bi) P(Bi∣A)=错误! 未找到引用源。 = n ∑P(Bj)P(A|Bi) j=1 错误! 未找到引用源。 或称为贝叶斯公式。 在全概率公式和贝叶斯公式中的B1,B2,…,Bn是导致事件A发生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 管理数量方法与分析 管理 数量 方法 分析 复习资料