R语言学习系列14缺失值及缺失模式.docx

资源ID：5304329 资源大小：19.86KB 全文页数：14页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

R语言学习系列14缺失值及缺失模式.docx

1、R语言学习系列14缺失值及缺失模式14.缺失值及缺失模式目录：一. 什么是缺失值二. 辨别缺失值三. 缺失模式及办理方法四判断缺失模式正文：一、什么是缺失值1.缺失值缺失值是任何数据集中常常出现的问题，无回答、录入错误等检查中常会出现的现象都会致使缺失数据。缺失值往常会用一些特别符号进行标志，比方 9999、1990 年 1 月 1 日，或许是“ * ”、“”、“#”、“$”等符号。还有一种数值缺失状况，是统计的时间窗口并不是对全部数据都适合。比如，需要“客户近 6 个月内的最大存款余额”，关于那些成立账户尚不满 6 个月的客户来说，统计出来的数值与想要获取的便可能存在差距。缺失数据会影响

2、剖析工作的进行和统计工作的效率，还会致使剖析的误差。数据使用者、剖析者常常缺少缺失值办理方面的知识，不过对数据进行简单删除或插补会影响数据规模和数据构造，从而影响剖析结果。一般来说，对缺失值的填补方法，最好是先判断其缺失模式，再成立一些适合模型，依据数据的散布来填补一个更适合的数值。R 语言中，缺失值用 NA 表示。2.缺失值的产生原由(1)有些信息临时没法获取(2)有些信息是被遗漏的(3)有些对象的某个或某些属性是不行用的(4)有些信息（被以为）是不重要的(5)获取这些信息的代价太大(6)系统及时性能要求较高3. NA 与 NULL差别：NA 表示数据集中的该数据丢失、不存在。在针

3、对拥有 NA 的数据集进行函数操作的时候，该 NA 不会被直接剔除。如x-c(1,2,3,NA,4) 则 mean(x)为 NA假如想去除 NA 的影响，需要显式见告 mean 方法，如mean(x,=T)此外， NA 会“追随”其余数据的种类。NULL表示未知的状态。它不会在计算之中，如x-c(1,2,3,NULL,4) 则 mean(x)为NULL是不算数的， length(c(NULL)为 0，而 length(c(NA)为 1。可见 NA“占着”地点，它存在着，而 NULL没有“占着”地点，或许说，“不知道”有没有真实的数据注：NaN 表示“非数，不行能的值”，其辨别函数为 ()Inf

4、和-Inf 分别表示正无量和负无量，其辨别函数为 is. infinite()4.办理缺失值的基本步骤(1)辨别缺失值(2)判断缺失模式（完好随机缺失、随机缺失、完好非随机缺失）(3)办理缺失值（删除、用适合的方法插补）5.办理缺失值的方法及包二、辨别缺失值在数据预办理中，第一要做的往常是判断能否存在缺失值。判断能否为缺失值的函数是 ()，能够应用于向量、数据框等多种对象，返回逻辑值。另一个常用函数是 VIM 包中的 ()，判断每个观察样本能否完好， TRUR表示完好。library(mice)#数据集 nhanes2 为 mice 包自带数据集， 25 个观察值， 4 个变量(nhane

5、s2) #判断每个值能否为缺失值，只粘贴部分运转结果age bmi hyp chl1FALSE TRUE TRUE TRUE2FALSE FALSE FALSE FALSE sum(nhanes2)#共有几个缺失值 1 27#计算每列的缺失百分比Rate - function(x)sum(x)/length(x)*100apply(nhanes2,2,Rate)age bmi hyp chl0 36 32 40(nhanes2) #判断每个样本能否完好1 FALSE TRUE FALSE FALSETRUE FALSE TRUE8TRUE TRUE FALSE FALSE FALSETRUE

6、TRUE15 FALSE FALSETRUE TRUE TRUE FALSE FALSE22TRUE TRUE FALSE TRUE sum(!(nhanes2) #不完好样本的个数1 12三、缺失模式及办理方法1.缺失模式缺失模式是描绘缺失值与观察变量间可能的关系。从缺失的散布来讲，缺失值能够分为：完好随机缺失（ MCAR）：某变量缺失值发生的可能性与其余变量没关也与该变量自己没关。换句话说，某变量缺失值的出现完好部是个随机事件。能够将存在 MCAR变量的数据看作是假设完好数据的一个随机样本（ Rubin 1976）；注：MCAR数据缺失的理想状态，可是靠谱的缺失最大阈值是数据集总数的

7、 5%随机缺失（ MAR）：某变量出现缺失值的可能性与模型中某些观察变量有关而与该变量自己没关，比如，在一次测试中，假如 IQ 达不到最低要求的 100 分，那么将不可以参加随后的人品测试。在人品测试上因为 IQ 低于 100 分而产生的缺失值；非随机缺失（ MNAR）某变量出现缺失值的可能性只与自己有关，比如，企业新录取了 20 名职工，因为 6 名职工表现较差在试用期内解雇，试用期结束后的表现评定中，解雇的 6 名职工的表现分。2.辨别缺失数据的数量、散布和模式的目的（1）剖析生成缺失数据的潜伏体制；（2）评论缺失数据对回答实质性问题的影响：缺失数据的比率有多大缺失数据能否集中在少量几

8、个变量上，抑或宽泛存在缺失是随机产生的吗缺失数据间的有关性或与可观察数据间的有关性，能否能够表示产生缺失值的体制呢3.办理方法若缺失数据集中在几个相对不太重要的变量上，则能够删除这些变量，而后再进行正常的数据剖析；如有一小部分数据随机散布在整个数据集中（ MCAR），则能够剖析数据完好的实例，这样仍可获取靠谱有效的结果；若以假设数据是 MCAR或 MAR，则能够应用多重插补法来获取有效的结论。若数据是 MNAR，则是一个比较严重的问题。在这类状况下，你可能需要去检查数据的采集过程而且试着理解数据为何会丢掉。比如，检盘问卷中大部分人不回答某个问题，原由安在四、判断缺失模式1.列表形式展现缺

9、失数据mice 包中的 ()函数能够生成一个以矩阵或数据框形式展现缺失值模式。library(mice)(nhanes2) #25 个观察值， 4 个变量age hyp bmi chl131111011101131110111001271000308910 27说明：1 表示不缺失， 0 表示缺失；第 1 列为该行模式的数量；最后一行 / 列为该行 / 列缺失总数；结果第一行表示 4 个变量都不缺失的样本共 13 个，第二行表示只变量 bmi 缺失的样本共 1 个，最后一行表示变量 hyp、bmi、chl 同时缺失的样本共 7 个。2.图形探究缺失数据VIM 包供给了大批能可视化数据集中缺失

10、值模式的函数：(1)函数 aggr()可绘制每个变量的缺失值数，以及每个变量组合的缺失值数。其基本格式为：aggr(x, col=c(.,.), prop=TURE, numbers=TRUE)此中， x 为数据集； col 可选择部分变量；默认 prop=TURE显示缺失比率，若取 FALSE则显示缺失数量； numbers=TRUE设定显示组合缺失的信息。library(mice)library(VIM) #用 VIM 自带数据集 sleep，62 个观察值， 10 个变量aggr(sleep,prop=FALSE,numbers=TRUE)#第 1 个图，显示数量aggr(sleep,p

11、rop=TRUE,numbers=TRUE)#第 2 个图，显示比率说明：变量 NonD 缺失的样本有 14 个，，变量 NonD、Dream同时缺失的样本有 9 个，没出缺失值的样本共 42 个。说明：同上，不过从“缺失数量”变为了“缺失比率”。(2)函数 matrixplot()可生成展现每个样本数据的图形，数值型数据被从头变换到 0,1区间，并用灰度来表示大小：淡色表示值小，深色表示值大。默认缺失值为红色。基本格式为：matrixplot(x, sortby=.)此中， x 为数值矩阵或数据框， sortby 指定排序变量，来察看该变量值的大小能否影响各缺失值。matrixplot(

12、sleep,sortby=BodyWgt)说明：缺失值许多地集中在变量 NonD、Dream，该图已按变量BodyWgt（体重）排序，能够看出无缺失值的睡眠变量 NonD、Dream、Sleep对应着较小的体重。(3)函数 marginplot()可生成两个变量数据的边沿散点图，不一样于一般散点图，它会在图形边沿展现两个变量的缺失值或填补值的信息。基本格式为：marginplot(x, pch=c(1,16), col=c(skyblue,red,.),.)此中， x 为两个变量的数据矩阵或数据框； pch 设置散点符号； col设置散点图颜色。marginplot(sleepc(Gest

13、,Dream)说明：针对变量 Gest（妊娠期）、 Dream（做梦时长）绘制边沿散点图；左侧边沿的红色箱线图是不包括 Gest 值的变量 Dream 的散布，蓝色箱线图是包括 Gest 值的变量 Dream 的散布；四个红色的点代表着缺失了 Gest 值的样本的 Dream 值；底部边沿是两个变量反过来的信息。能够看到，妊娠期和做梦时长呈负有关，缺失妊娠期数据的动物的做梦时长一般更长。注：两个变量均出缺失值的样本个数在左下角输出。3.用有关性探究缺失数据用指示变量取代数据集中的数据（1 表示缺失， 0 表示不缺失），这样生成的矩阵称为影子矩阵。求这些指示变量间和它们与初始（可观察）变量间

14、的有关性，有助于察看哪些变量常一同缺失，以及剖析变量 “缺失”与其余变量间的关系。xBodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger1NANA6453532423133NANA601 114NANANA255235624354head(x,n=5)BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger1001100000020000000000300110000004001101000050000000000library(stats) #使用函数 sd()y

15、0)cor(y)NonDDreamSleepSpanGestNonD0.0.-0.Dream0.0.-0.Sleep0. 0.Span0.Gest-0. -0.0.cor(sleep,y,use=)NonDDreamSleepSpanGestBodyWgt0.0.BrainWgt0.0.NonDNANANADream-0.NA0. 0.SleepNASpanNAGest0.-0.NAPred-0.Exp0.0.-0. -0.Danger-0.Warning message:In cor(sleep, y, use = ) : 标准差为零主要参照文件：R 语言：缺失值办理，银河统计学， csdn 博客：缺失值的办理，铁汉 1990 的博客，新浪博客：

注意事项

本文（R语言学习系列14缺失值及缺失模式.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。