应用统计学总结.docx

资源ID：13080782 资源大小：30.07KB 全文页数：21页
资源格式： DOCX 下载积分：6金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要6金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

应用统计学总结.docx

1、应用统计学总结一统计学性质统计学：收集、分析、表述和解释数据的科学 1.数据搜集：取得数据；2.数据分析：分析数据；3.数据表述：图表展示数据；4.数据解释：结果的说明（一）现代统计学的性质可归纳为如下几个方面：1.统计学是方法论科学，而不是实质性科学它研究的是事物普遍存在的数量关系的计量和数量分析的方法，并通过数量分析来认识特定事物的内在规律性，但不是研究规律本身。2.统计学的应用范围不局限于社会科学,也不局限于自然科学。由于其方法来自于社会科学也来自于自然科学，所以它可以用于社会现象也可以用于自然现象，即统计学是一种通用的方法论科学。同时统计学也不是依服于实质性科学而存在的方法论

2、，它是独立的方法论科学。3.统计学的研究对象既包括确定性现象的总体数量关系，也包括随机现象的总体数量关系，即统计学是研究各类事物总体数据的方法论科学。统计学是为探索事物数量所反映的客观规律性，而对事物总体的大量数据进行收集、整理和分析研究的方法论科学。它以大量的客观事物的量化描述、特征推算及关系分析为其主要研究对象。（二）描述统计学与推断统计学：描述统计学（Descriptive Statistics）研究如何取得反映客观现象的数据，并通过图表形式对所收集的数据进行加工处理和显示，进而通过综合概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示

3、方法、数据分布特征的概括与分析方法等。推断统计学（1nferential Statistics）则是研究如何根据样本数据去推断总体数量特征的方法，它是在对样本数据进行描述的基础上，对统计总体的未知数量特征做出以概率形式表述的推断。描述统计学和推断统计学的划分，一方面反映了统计方法发展的前后两个阶段，同时也反映了应用统计方法探索客观事物数量规律性的不同过程。统计研究过程的起点是统计数据，终点是探索出客观现象内在的数量规律性。在这一过程中，如果搜集到的是总体数据（如普查数据），则经过描述统计之后就可以达到认识总体数量规律性的目的了；如果所获得的只是研究总体的一部分数据（样本数据），要找到总体

4、的数量规律性，则必须应用概率论的理论并根据样本信息对总体进行科学的推断。显然，描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础，推断统计则是现代统计学的主要内容。二统计数据对现象进行测量的结果；不是指单个的数字，而是由多个数据构成的数据集；不仅仅是指数字，它可以是数字的，也可以是文字的分类：按计量1. 分类数据(categorical data) 只能归于某一类别的非数字型数据对事物进行分类的结果，数据表现为类别，用文字来表述2. 顺序数据(rank data) 只能归于某一有序类别的非数字型数据对事物类别顺序的测度，数据表现为类别，用文字来表述3. 数值型数据

5、(metric data) 按数字尺度测量的观察值结果表现为具体的数值，对事物的精确测度按收集方法1. 观测的数据(observational data) ：在没有对事物人为控制的条件下而得到的，通过调查或观测而收集到的数据2. 试验的数据(experimental data) ：在试验中控制试验对象而收集到的数据按时间状况1. 时间序列数据(time series data) 在不同时间上收集到的数据描述现象随时间变化的情况2.截面数据(cross-sectional data) 在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况三数据质量1. 数据的误差：（1）抽样误

6、差；a、在用样本数据进行统计推断时所产生的误差（样本统计量与相应总体参数之间的偏差）b、由于抽样的随机性所带来的误差 c、影响抽样误差的大小的因素：抽样方法；样本量的大小；总体的变异性（2）非抽样误差（抽样框误差；回答误差；无回答误差；调查员误差）a、调查过程中由于调查者和被调查者的人为因素所造成的误差（除抽样误差之外的，由于其他原因造成的样本观察结果与总体真值之间的差异）b、理论上可以消除c、存在于所有的调查之中：概率抽样，非概率抽样，全面性调查（3）误差的控制a、抽样误差可计算和控制b、非抽样误差的控制：调查员的挑选；调查员的培训；督导员的调查专业水平：调查过程控制（调

7、查结果进行检验、评估；现场调查人员进行奖惩的制度）（4）统计数据质量的要求;1. 精度：最低的抽样误差或随机误差2. 准确性：最小的非抽样误差或偏差3. 关联性：满足用户决策、管理和研究的需要4. 及时性：在最短的时间里取得并公布数据5. 一致性：保持时间序列的可比性6. 最低成本：以最经济的方式取得数据四数据特征(一) 集中趋势：表明同类现象在一定时间、地点条件下，所达到的一般水平与大量单位的综合数量特征，有以下3个特点： 1. 用一个代表数值综合反映个体某种标志值的一般水平。 2. 将个体标志值之间的差异抽象掉了。 3. 计量单位与标志值的计量单位一致。集中趋势1. 一

8、组数据向其中心值靠拢的倾向和程度2. 测度集中趋势就是寻找数据水平的代表值或中心值3. 不同类型的数据用不同的集中趋势测度值4. 低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据集中趋势的作用：比较若干总体的某种标志数值的平均水平研究总体某种标志数值的平均水平在时间上的变化分析社会经济现象的依存关系研究和评价事物优劣的数量指标计算和估算其他重要的经济指标（二）离中趋势：1. 数据分布的另一个重要特征2. 反映各变量值远离其中心值的程度（离散程度）3. 从另一个侧面说明了集中趋势测度值的代表程度4. 不同类型的数据有不同的离散程度测度值离中趋势度

9、量的目的：描述总体内部差异程度；衡量和比较均值指标的代表性高低；为抽选样本单位数提供依据区别与联系：区别：集中趋势是对频数分布资料的集中状况和平均水平的综合测度；是一组数据向其中心值靠拢的倾向和程度；测度集中趋势就是寻找数据水平的代表值或中心值。离中趋势是对频数分布资料的差异程度和离散程度的测度，用来衡量集中趋势所测数据的代表性，或者反应变量值的稳定性与均匀性；是用来描述总体内部差异程度及衡量和比较均值指标的代表性高低。偏度是用来反应变量数列分布偏斜程度的指标，有对称分布和非对称分布，非对称分布也即为偏态分布，包括左偏分布和右偏分布。峰度是用来反应变量数列曲线顶端尖峭或扁平程度的指标。联系：为

10、了反面描述研究对象的情况，仅仅用集中趋势方法来测度集中性和共性是不够的，还要用离散趋势方法来测度其离散性和差异性，因此，而这需要结合使用。集中趋势和离中趋势是变量数列分布的两个重要特征，但要全面了解变量数列分布的特点，还需要知道数列的形状是否对称、偏斜程度以及分布的扁平程度等。偏度和峰度就是从分布特征作进一步的描述。五参数估计（一）点估计1. 用样本的估计量直接作为总体参数的估计值2. 缺点：没有给出估计值接近总体参数程度的信息，它与真挚的误差、估计可靠性怎么样无法知道。区间估计可以弥补这种不足。3. 点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等（二）区间估计在点估计

11、的基础上，给出总体参数估计的一个区间范围，该区间由样本统计量加减抽样误差而得到的。根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。（三）置信水平1. 将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信水平 2. 表示为 (1 - 常用的置信水平值有 99%, 95%, 90%；相应的为0.01，0.05，0.10（四）置信区间由样本统计量所构造的总体参数的估计区间称为置信区间；统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生

12、的区间是否包含总体参数的真值，我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个置信区间的表述：1. 总体参数的真值是固定的，而用样本构造的区间则是不固定的，因此置信区间是一个随机区间，它会因样本的不同而变化，而且不是所有的区间都包含总体参数2. 实际估计时往往只抽取一个样本，此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个3. 当抽取了一个具体的样本，用该样本所构造的区间是一个特定的常数区间，我们无法知道这个

13、样本所产生的区间是否包含总体参数的真值，因为它可能是包含总体均值的区间中的一个，也可能是未包含总体均值的那一个4. 一个特定的区间总是“包含”或“绝对不包含”参数的真值，不存在“以多大的概率包含总体参数”的问题5. 置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值，而不是针对所抽取的这个样本所构建的区间而言的 6. 使用一个较大的置信水平会得到一个比较宽的置信区间，而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说，较宽的区间会有更大的可能性包含参数7. 但实际应用中，过宽的区间往往没有实际意义8. 区间估计总是要给结论留点儿余地影响置信区间宽度的因素：

14、1.总体数据的离散程度，用来测度；2.样本容量；3. 置信水平 (1- )，影响 z/2 的大小（五）参数估计标准：无偏性：估计量抽样分布的数学期望等于被估计的总体参数有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数六假设检验（一）概念1. 先对总体的参数(或分布形式)提出某种假设，然后利用样本信息判断假设是否成立的过程2. 有参数检验和非参数检验3. 逻辑上运用反证法，统计上依据小概率原理什么小概率？1. 在一次试验中，一个几乎不可能发生的事件发生的概率2. 在一次试验中小概率事件一旦发生，我们就有

15、理由拒绝原假设3. 小概率由研究者事先确定怎样通过假设检验去掉偶然性利用P值进行检验就可以去掉偶然性。因为P值告诉我们在某个总体的许多样本中，某一类数据出现的经常程度，P值是当原假设正确的情况下，得到所观测的数据的概率。如果原假设是正确的，P值若很小，则告诉我饿们得到这样的观测数据是多么的不可能，相当不可能得到的数据，就是原假设不对的合理证据，偶然性也就消除了。（二）原假设1. 研究者想收集证据予以反对的假设。是关于总体参数的表述，它是接受检验的假设。2. 总是有符号 , 或3. 表示为 H0 H0 ： = 某一数值指定为符号 =，或（三）备择假设1. 研究者想收集证据予以支持的假设。党

16、员假设被否定时另一种可成立的假设。2. 总是有符号 , 或 3. 表示为 H1 H1 ： F ，则拒绝原假设H0 ，表明均值之间的差异是显著的，所检验的因素对观察值有显著影响若FF ，则不能拒绝原假设H0 ，无证据支持表明所检验的因素对观察值有显著影响 8.关系强度1. 变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映2. 自变量平方和占总平方和的比例记为R2 ,即3、其平方根R就可以用来测量两个变量之间的关系强度八简单回归与相关分析1.相关分析:对两个变量之间线性关系的描述与度量，它要解决的问题包括变量之间是否存在关系？如果存在关

17、系，它们之间是什么样的关系？变量之间的强度如何？样本所反映的变量之间的关系能否代表总体变量之间的关系？2.回归分析：从一组样本数据出发，确定变量之间的数学关系式；对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著；利用所求的关系式，根据一个或几个变量的取值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确程度3.回归分析与相关分析的区别1. 相关分析中，变量 x 变量 y 处于平等的地位；回归分析中，变量 y 称为因变量，处在被解释的地位，x 称为自变量，用于预测因变量的变化2. 相关分析中所涉及的变量 x 和 y 都是随机

18、变量；回归分析中，因变量 y 是随机变量，自变量 x 可以是随机变量，也可以是非随机的确定变量3. 相关分析主要是描述两个变量之间线性关系的密切程度；回归分析不仅可以揭示变量 x 对变量 y 的影响大小，还可以由回归方程进行预测和控制 4.一元线性回归模型1. 描述因变量 y 如何依赖于自变量 x 和误差项的方程称为回归模型2. 一元线性回归模型可表示为 y = 0 +1 x + y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关

19、系所解释的变异性 0 和 1 称为模型的参数5.利用回归方程预测时应注意1. 在利用回归方程进行估计或预测时，不要用样本数据之外的x值去预测相对应的y值2. 因为在一元线性回归分析中，总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。但实际应用中，它们之间的关系可能是某种曲线3. 此时我们总是要假定这条曲线只有一小段位于x测量值的范围之内。如果x的取值范围是在xL和xU之间，那么可以用所求出的利用回归方程对处于xL和xU之间的值来估计E(y)和预测y。如果用xL和xU之间以外的值得出的估计值和预测值就会很差 6.离差平方和1. 总平方和(SST) 反映因变量的 n 个观察值与其均值的

20、总离差2. 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响，或者说，是由于 x 与 y 之间的线性关系引起的 y 的取值变化，也称为可解释的平方和3. 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响，也称为不可解释的平方和或剩余平方和7.估计标准误差1. 实际观察值与回归估计值离差平方和的均方根（自由度n-2）2. 反映实际观察值在回归直线周围的分散状况3. 对误差项的标准差的估计，是在排除了x对y的线性影响后，y随机波动大小的一个估计量4. 反映用估计的回归方程预测y时预测误差的大小九多元回归1.多重共线性1. 回归模型中两个或两个以上的自变量彼此相关2. 多重共线性带来的问题有可能会使回归的结果造成混乱，甚至会把分析引入歧途可能对参数估计值的正负号产生影响，特别是各回归系数的正负号有可能同我们预期的正负号相反 2.多重共线性的识别1. 检测多重共线性的最简单的一种办法

注意事项

本文（应用统计学总结.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。