《基于R的统计分析与数据挖掘》课件.pptx
- 文档编号:18070147
- 上传时间:2023-08-09
- 格式:PPTX
- 页数:329
- 大小:5.37MB
《基于R的统计分析与数据挖掘》课件.pptx
《《基于R的统计分析与数据挖掘》课件.pptx》由会员分享,可在线阅读,更多相关《《基于R的统计分析与数据挖掘》课件.pptx(329页珍藏版)》请在冰点文库上搜索。
第1章关于R,基于R的统计分析与数据挖掘,为什么选择R和如何学习R,R语言是一种面向统计分析的计算机高级语言,属于数据分析软件范畴根据由浅入深的数据分析需求,依据数据分析过程分阶段、分步骤地学习R,是一种快速有效掌握R的基本方法,R入门必备,R是一个关于包的集合包是关于函数、数据集、编译器等的集合编写R程序的过程就是通过创建R对象组织数据,通过调用系统函数,或者创建并调用自定义函数,以逐步完成数据分析任务的过程包是R的核心,可划分为基础包(Base)和共享包(Contrib)两大类,R的下载,可从R的网站www.r-project.org上免费下载并安装R软件,启动R,成功启动R之后显示的窗口,R的书写是严格区分英文大小写的;利用键盘上的上下箭头键,可重复显示以往或后续的书写内容,当前已经加载了哪些包,成功启动R意味着基础base包中的默认加载包已成功加载到R的工作空间,用户可以直接调用其中的函数窗口菜单:
MicsListsearchpath,当前可以做的事情,成功启动R意味着用户可在R工作空间中创建和管理R对象,调用已被加载包中的函数,实现对对象的管理和相关的数据分析等R对象是R程序处理的基本单元,用于待分析数据的组织,以及分析结果的组织等。
每个R对象均有一个对象名作为唯一的标识。
一般可直接通过对象名访问对象中的数据或其他内容,当前可以做的事情,函数是实现某计算或分析的程序段,可视为一种特殊的对象。
每个函数均有一个函数名。
用户可通过两种形式调用函数:
函数名()函数名(形式参数列表),如何获得的R帮助文档,help.start(),函数和包的拓展使用,若要调用尚未加载的包中的函数,需按照“先加载,后浏览,再调用”的步骤实现先加载:
首先,将未加载的包加载到R的工作空间,调用的函数为:
library(“包名称”)后浏览:
然后,浏览包中提供的函数,调用的函数为:
library(help=”包名称”)再调用:
最后,以无形式参数或带形式参数的方式调用相应函数,R的运行方式,命令行方式是指在R控制台的提示符后,输入一条命令并回车即可立即得到运行结果。
适合于较为简单步骤较少的数据处理和分析,R的运行方式,程序运行方式也称脚本运行方式,是指首先编写R程序,然后一次性提交运行该程序。
适合于较为复杂步骤较多的数据处理和分析,退出R,当结束R工作退出R的时候,可调用函数:
q(),或鼠标单击R主窗口右上角的窗口关闭按钮工作空间(workspace)是R的工作环境,或工作内存,其中临时保存了本次运行中生成的R对象和已输入的命令清单等退出R时,用户可指定将工作空间中的内容保存到当前工作目录下的环境文件中。
环境文件名为.Rdata和.Rhistory,第2章R的数据组织,基于R的统计分析与数据挖掘,从存储角度划分R对象,数据对象是R组织数据的基本方式。
由于不同类型的数据在计算机中所需的存储字节不同,所以可将R数据对象划分为数值型:
123.5,1.235E2字符型:
”ZhangSan”,”BeiJing”逻辑型:
只有真(是)、假(否)两个取值,从结构角度划分R对象,数据对象是R组织数据的基本方式。
由于数据分析实践中有不同的数据组织结构,所以R数据对象可划分为向量、矩阵、数组、数据框、列表等多种结构类型,创建和访问R的数据对象,创建对象是通过赋值语句实现的。
基本书写格式为:
对象名-R常量或R函数访问对象,即浏览对象的具体取值,也称对象值。
基本书写格式为:
对象名,或,print(对象名)查看对象的结构,即对象的存储类型以及与结构相关的信息。
基本书写格式为:
str(对象名),创建和访问R的数据对象,管理对象,即浏览当前工作空间中包含哪些对象,删除不再有用的对象等。
基本书写格式为:
ls()rm(对象名或对象名列表),或,remove(对象名),向量的创建和访问,示例:
访问向量中的元素,示例:
矩阵的创建和访问,示例:
矩阵的创建和访问,示例:
访问矩阵中的元素,示例:
访问矩阵中的元素,示例:
访问矩阵中的元素,以编辑窗口形式访问:
数据框的创建和访问,示例:
访问数据框,示例:
数据对象的相互转换,可利用as函数将数据对象的存储类型转换为指定的类型,基本书写格式为:
as.存储类型名(数据对象名)向量转换为因子:
因子是一种特殊形式的向量。
由于一个向量可视为一个变量,如果该变量的计量类型为分类型,则将对应的向量转换为因子,这样更利于后续的数据分析。
基本书写格式为:
as.factor(向量名),从文本文件读数据,可利用scan函数将文本数据读入到向量中,基本书写格式为:
scan(file=”文件名”,skip=行数,what=存储类型转换函数()可利用read.table函数将文本数据读入到数据框中,基本书写格式为:
read.table(file=文件名,header=TRUE/FALSE,sep=数据分隔符),第3章R的数据管理,基于R的统计分析与数据挖掘,数据合并,数据合并是指将存储在两个R数据框中的两份数据,以关键字为依据,以行为单位做列向合并。
通常,这些数据是关于观测对象不同侧面的描述信息,合并后将利用数据多角度的综合分析和研究实现数据合并的函数是merge函数,基本书写格式为:
merge(数据框名1,数据框名2,by=关键字),数据合并,示例:
数据排序,数据排序不仅便于数据浏览,更有助于快速找到数据中可能存在的错误数据、异常数据等。
可按单个变量取值的升序或降序排序数据,称为单变量排序。
也可依据多个变量进行多重排序。
实现数据排序的函数是order函数,基本书写格式为:
order(向量名列表,na.last=TRUE/FALSE/NA,decreasing=TRUE/FALSE),数据排序,示例:
缺失数据报告,导致缺失数据的主要原因有两类:
第一,数据无法或很难获得。
如家庭储蓄总额等。
对此,R用符号NA(NotAvailable)表示,NA即为缺失值第二,由于各种原因数据取了明显不合理的值。
如年龄是230岁等。
对此,R用符合NaN(NotaNumber)表示,NaN也是一种缺失值,判断缺失值和完整观测,判断变量是否取缺失值的函数是is函数,基本书写格式为:
is.na(向量名),is.nan(向量名)为逐个判断每个观测样本是否有取缺失值的变量(域),则需利用complete.cases函数,基本书写格式为:
complete.cases(矩阵名或数据框名),判断缺失值和完整观测,示例:
生成缺失数据报告,为进一步得到关于数据缺失状况的全面报告,可利用mice包提供的相关函数生成缺失数据报告的函数是md.pattern,基本书写格式为:
md.pattern(矩阵名或数据框名)示例:
变量计算,变量计算是在原有数据基础上派生出信息更加丰富的新变量。
或者对原有变量进行变换处理以满足后续建模的需要变量计算可借助赋值语句,通过恰当的表达式实现:
对象名-R的算术表达式或关系表达式,变量计算函数,R表达式中的函数种类很多,从计算目的上大致分为数学函数、统计函数、概率函数、字符串函数等示例:
用户自定义函数,尽管系统函数能够满足绝大部分的变量计算需求,但有时也可能无法完成较为繁琐的,需经多个步骤才能完成的,具有用户个性需求的计算任务。
如果这个计算具有一定的功能完整性且应用场合较多,就有必要将其编写成,或称定义成一个独立程序段,即函数。
与系统函数不同的是,这些函数是用户自行编写的,因而称为用户自定义函数,用户自定义函数的定义,定义函数,即明确给出函数说明和函数体。
定义的基本书写格式为:
用户自定义函数名-function(参数列表)计算步骤1计算步骤2return(函数值),用户自定义函数的定义,示例:
变量值的重编码:
分组,分组是按一定方式将数值型变量的变量值分成若干个区间,每个区间即是一个分组。
例如,可将学生各科成绩的平均分为A、B、C、D、E5个组,分别对应优、良、中、及格、不及格成绩。
分组后的变量为分类型变量,一般在R中以因子方式组织,变量值的重编码:
分组,示例:
变量值的重编码:
重定义类别值,重定义类别值是对分类型变量的类别值重新进行编码。
例如,学生成绩数据中的性别,原本用1和2依次指代男女,若希望修改为M和F,即为重新定义性别的类别值示例:
数据筛选,数据筛选,顾名思义是将现有数据,按照某种方式筛选出部分观测样本,以服务于后续的数据建模。
数据筛选方式包括按条件筛选随机筛选,数据筛选:
按条件筛选,实现条件筛选的函数为subset函数,基本书写格式为:
subset(数据框名,关系表达式)示例:
数据筛选:
随机筛选,随机筛选是对现有数据按照指定的随机方式筛选观测样本。
可利用sample函数实现,基本书写格式为:
sample(向量名,size=样本量,prob=c(各元素抽取概率表),replace=TRUE/FALSE)示例:
数据保存,保持数据到文本文件的函数是write.table函数,基本书写格式为:
write.table(数据对象名,file=文本文件名,sep=分隔符,quote=TRUE/FALSE,append=TRUE/FALSE,na=NA,row.names=TRUE/FALSE,col.names=TRUE/FALSE),数据管理中控制流程,简单的数据管理任务均可通过顺序调用函数来实现。
但较为复杂的数据管理还需更为灵活的流程控制手段。
如果将顺序调用函数视为以一种顺序结构的流程控制,即R程序的执行过程完全取决于程序语句的先后顺序,那么,更为灵活的流程控制则包括:
分支结构的流程控制循环结构的流程控制,分支结构的流程控制,分支结构的流程控制是指R程序在某处的执行取决于某个条件。
当条件满足时执行一段程序,当条件不满足时执行另外一段程序。
因程序的执行在该点出现了“分支”,因而得名分支结构的流程控制,分支结构的流程控制,if结构:
if-else结构:
循环结构的流程控制,循环结构的流程控制是指R程序在某处开始,根据条件判断结果决定是否反复执行某个程序段,循环结构的流程控制,for结构:
示例:
循环结构的流程控制,while结构示例:
循环结构的流程控制,repeat结构:
示例:
利用流程控制还原汇总数据,示例:
第4章R的基本数据分析:
描述和相关,基于R的统计分析与数据挖掘,数值型单变量的描述,数值型单变量描述的目标是选用恰当的描述统计量,测度和刻画变量分布的集中水平、离中趋势、分布形态的对称性及陡峭程度。
常用的描述统计量包括:
反映集中水平特征的均值、众位数等;反映离中趋势特征的四分位差、方差、标准差等;反映分布形态对称性的偏态系数;反映分布形态陡峭程度的峰度系数,计算基本描述统计量,可利用summary函数,基本书写格式为:
summary(数据对象名)示例:
计算多个变量的某个描述统计量,可利用sapply函数实现简化,基本书写格式为:
sapply(数据框列号范围,FUN=函数名,na.rm=TRUE/FALSE)示例:
分类型单变量的描述,分类型单变量描述的目标是编制频数分布表。
频数分布表一般包括频数和百分比,用于展示单个分类型变量的分布特征编制频数分布表的函数是table函数,基本书写格式为:
table(向量名),分类型单变量的描述,示例:
两数值型变量相关性的分析,两个数值型变量的相关性,这里主要指线性相关性。
一方面,可通过简单相关系数刻画样本所体现的相关性。
相关系数大于零表示有正的线性相关性,小于零表示有负的线性相关性,等于零表示没有线性相关性。
相关系数的绝对值越大,线性相关性越强;另一方面,可通过相关系数检验对样本来自总体的相关性进行检验,计算简单相关系数,简单相关系数:
计算两数值型变量相关系数的R函数是cov,基本书写格式为:
cor(矩阵或数据框列号,use=缺失值处理方式,method=pearson),计算简单相关系数,示例:
简单相关系数的检验,由于抽样的随机性以及样本量的影响,简单相关系数仅能体现样本所表现的相关性。
样本来自的总体是否相关或无关,还需要进行相关系数检验简单相关系数检验的检验统计量:
简单相关系数的检验,相关系数检验的R函数是cor.test,基本书写格式为:
cor.test(数值型向量1,数值型向量2,alternative=检验方向,method=pearson)示例:
计算偏相关系数,偏相关系数是在控制了其他数值型变量(这些变量称为控制变量)的条件下,计算两数值型变量间的相关系数,从而消除其他变量对相关系数值的影响偏相关系数计算的函数在corpcor包中基本书写格式为:
cor2pcor(相关系数矩阵名),计算偏相关系数,示例:
两分类型变量相关性的分析,两分类型变量相关性的分析主要包括两个方面:
第一,相关性的描述第二,相关性的检验,两分类型变量相关性的描述,两分类型变量相关性描述的工具是编制列联表。
列联表中一般包括两分类型变量类别值交叉分组下的观测频数,表各行列的频数合计(边际频数),各频数占所在行列合计的百分比(边际百分比)以及占总合计的百分比(总百分比)等编制列联表的函数基本书写格式为:
table(矩阵或数据框的列号)xtabs(R公式,data=数据框名),两分类型变量相关性的描述,示例:
两分类型变量相关性的描述,进一步计算:
两分类型变量相关性的检验,两分类型变量相关性的检验是在列联表的基础上,利用列联表数据,分析表中两分类型变量的总体相关性。
采用的方法是卡方检验卡方检验的原假设是:
列联表中两分类型变量独立。
常用的检验统计量为pearson卡方统计量,定义为:
卡方检验的R函数和示例,卡方检验的R函数是chisq.test,基本书写形式为:
chisq.test(列联表对象,correct=TRUE/FALSE)示例:
第5章R的基本数据分析:
可视化,基于R的统计分析与数据挖掘,R的基本数据分析:
可视化,数据特征可视化的基本工具是统计图形。
一方面,图形是直观展示变量分布特征以及变量在不同样本组分布特征差异性的重要工具。
另一方面,R的图形绘制功能强大,图形种类丰富,在数据可视化方面优势突出R的绘图函数分布在基础base包和共享contrib包中。
其中基础base包中的绘图函数一般用于绘制基本统计图形,而大量绘制各类复杂图形的函数,多包含在共享contrib包中,绘图基础:
图形设备和图形文件,R的图形并不显示在R的控制台中,而是默认输出到一个专用的图形窗口中。
这个图形窗口被称为R的图形设备。
R允许多个图形窗口同时被打开,图形可分别显示在不同的图形窗口中,也即允许同时打开多个图形设备用以显示多组图形,绘图基础:
图形组成和图形参数,R的图形是由多个部分组合的,主要包括:
主体,坐标轴,坐标标题,图标题四个必备部分绘制图形时,一方面应提供用于绘图的数据,另一方面还需对图形各部分的特征加以说明,绘图基础:
图形布局,图形布局是指,对于多张有内在联系的图形,若希望将它们共同放置在一张图上时,应按怎样的布局组织它们具体讲,就是将整个图形设备划分成几行几列,按怎样的顺序摆放各个图形,各个图形上下左右的边界是多少等。
设置图形布局的函数为par,基本书写形式为:
par(mfrow=c(行数,列数),mar=c(n1,n2,n3,n4)par(nfcol=c(行数,列数),mar=c(n1,n2,n3,n4),数值型单变量分布的可视化,为直观展示数值型单变量的分布特征以及在不同样本组上的分布差异性,常用的统计图形有:
茎叶图箱线图直方图核密度图小提琴图克利夫兰点图时序折线图,等,茎叶图,绘制茎叶图的函数是stem,基本书写格式为:
stem(数值型向量名或域名)示例:
箱线图,绘制单个变量箱线图的函数是boxplot,基本书写格式为:
boxplot(数值型向量名或域名,horizontal=TRUE/FALSE,axes=TRUE/FALSE,ylim=纵坐标范围)绘制变量在不同样本组的箱线图的函数仍为boxplot,基本书写格式为:
boxplot(R公式,data=数据框名,horizontal=TRUE/FALSE,axes=TRUE/FALSE,ylim=纵坐标范围,names=分组标题),箱线图,示例:
直方图与核密度图,直方图的函数为hist,基本书写格式为:
hist(数值型向量名或域名,freq=TRUE/FALSE)核密度估计函数为density,基本书写格式为:
density(数值型向量名或域名),直方图与核密度图,示例:
小提琴图,小提琴图是箱线图和核密度图的结合,因形状酷似小提琴而得名。
绘制小提琴图的函数vioplot在violpot包中,首次应用时需要下载安装,并加装到R的工作空间中。
vioplot函数的基本书写格式为:
vioplot(数值型向量名或域名)或vioplot(数值型向量名或域名列表,names=横坐标轴标题向量),小提琴图,示例:
克利夫兰点图,克利夫兰点图可用于直观展示数据中可能的异常点。
克利夫兰点图的横坐标为变量值,纵坐标为各观测编号(观测编号越小纵坐标值越大)。
绘制克利夫兰点图的函数是dotchart,基本书写格式为:
dotchar(数值型向量名或域名),克利夫兰点图,示例:
时序折线图,如果数值型变量是一个时间序列数据,那么关于它的图形展示目的是刻画时间序列如何随时间的推移而变化。
理想的图形工具是时序折线图。
图中的横坐标为时间,纵坐标为变量值。
plot函数可用于绘制折线图,基本书写格式为:
plot(数值型向量或域名,type=线的类型名),时序折线图,示例:
分类型变量分布和相关性的可视化,为直观展示分类型单变量的分布特征,变量在不同样本组上的分布差异,也即两分类型变量的相关性,常用的统计图形有柱形图或条形图饼图马赛克图,等,简单柱形图,简单柱形图是展示分类型变量分布特征的最常见图形,其横坐标为类别值,纵坐标默认频数或频率简单绘制柱形图的函数是barplot,基本书写格式为:
barplot(数值型向量名,horiz=TRUE/FALSE,names.arg=条形标签向量),简单柱形图,示例:
簇式柱形图,为对比分类型变量的分布在不同样本组上的差异,需绘制簇式柱形图。
仍利用barplot函数,基本书写格式为:
barplot(数值型矩阵名,col=颜色向量,beside=TRUE/FALSE,horiz=TRUE/FALSE,legend=图例标签向量),簇式柱形图,示例:
饼图和扇形图,饼图用于展示分类型变量各类别的分布比例状况,扇形图更利于比较绘制饼图的函数是pie,基本书写格式为:
pie(数值型向量名,labels=切片标签向量,clockwise=TRUT/FALSE)绘制扇形图的函数是fan.plot,包含在plotrix包中,基本书写格式为:
fan.plot(数值型向量名,labels=切片标签向量),饼图和扇形图,示例:
马赛克图,马赛克图用于展示两或三个分类型变量相关性。
因图中格子的排列形似马赛克而得名绘制马赛克图的R函数是vcd包中的mosaic函数,基本书写格式为:
mosaic(分类型域名1+分类型域名2+,data=数据框名,shade=TRUE/FALSE,legend=TRUE/FALSE),马赛克图,示例:
两数值型变量相关性的可视化,散点图是展示两个或多个数值型变量相关性特征的最常用工具,包括:
简单散点图三维散点图汽包图矩阵散点图,等进一步,由于散点图对变量间相关性大小的展示略显粗略,所以还可以绘制以相关系数矩阵为绘图对象的相关系数图,以更精准展示数值型变量间线性相关性的强弱,简单散点图,简单散点图将观测数据点绘制在一个二维平面中,通过数据点分布的形状可粗略展示两数值型变量间的相关性特点利用plot绘制散点图时,函数的基本书写格式为:
plot(x=数值型向量名1,y=数值型向量名2)或plot(域名2域名1,data=数据框名),在简单散点图上添加回归线,第一步,求解回归线,有两种求解方法:
一元线性回归法,函数基本书写格式为:
lm(被解释变量名解释变量名,data=数据框名)局部加权散点平滑法,函数基本书写格式为:
loess(被解释变量名解释变量名,data=数据框名),在简单散点图上添加回归线,第二步,将回归线添加到已有的散点图上。
可采用abline函数,基本书写格式是:
abline(数值型向量),或,abline(h=纵坐标值),或,abline(v=横坐标值),在简单散点图上添加回归线,示例:
高密度散点图的处理,当观测样本量较大时,所绘制的散点图可能会出现数据点非常集中,有很多数据点重叠在一起的现象。
这样的散点图称为高密度散点图。
由于高密度散点图中的点大量重合叠加,不利于直观展示变量间的相关性特征,需对其做进一步的处理,高密度散点图的处理,主要有以下两种方式:
第一,增加数据“噪声”减少数据点的重叠增加噪声的函数是jitter,基本书写格式为:
jitter(数值型向量,factor=n)第二,利用色差突出散点图中的数据密集区域可使用smoothScatter函数绘制散点图,基本书写格式为:
smoothScatter(x=横坐标向量,y=纵坐标向量),高密度散点图的处理,示例:
三维散点图和气泡图,三维散点图在展示两数值型变量相关性的同时,还希望体现第三个变量的取值状况绘制三维散点图的函数是scatterplot3d包中的scatterplot3d函数,基本书写格式为:
scatterplot3d(向量名1,向量名2,向量名3),三维散点图和气泡图,汽包图即在绘制两个变量的散点图时,各个数据点的大小取决于第三个变量的取值。
第三个变量取值不同,数据点的大小也就不同,形如大小不一的一组气泡绘制汽包图的函数是symbols,基本书写格式为:
symbols(向量名1,向量名2circle=向量名3,inches=计量单位,fg=绘图颜色,bg=填充色),三维散点图和气泡图,示例:
矩阵散点图,矩阵散点图用于在一副图上同时展示多对数值型变量的相关性绘制矩阵散点图的函数是pairs,基本书写格式为:
pairs(域名1+域名2+域名n,data=数据框名)若希望在散点图上添加回归曲线,应采用car包中的scatterplotMatrix函数。
函数的基本书写格式为:
scatterplotMatrix(域名1+域名2+域名n,data=数据框名,lty.smooth=2,spread=FALSE),矩阵散点图,示例:
相关系数图,相关系数矩阵虽然可以准确反映两两变量的线性相关性的强弱,但当这个矩阵较大时,分析起来就不很直观。
为此,可基于相关系数矩阵绘制相关系数图相关系数图由下三角区域、上三角区域、对角区域三个部分组成。
区域在这里称为面板,三个区域也分别称为下面板,上面板和对角面板。
除对角面板外,上下面板以不同形式直观展示相应变量对的相关性强弱,相关系数图,绘制相关系数图的函数是corrgram包中的corrgram函数,基本书写格式为:
corrgram(矩阵或数据框列,lower.panel=面板样式,upper.panel=面板样式,text.panel=面板样式,diag.panel=面板样式),相关系数图,示例:
分组散点图,若要展示两个数值型变量之间的相关性在不同样本组上的差异,需要绘制分组散点图,也称协同图。
可采用coplot函数绘图,基本书写格式为:
coplot(域名1域名2|分组域名,number=分组数,data=数据框名),分组散点图,示例:
第6章R的两均值比较检验,基于R的统计分析与数据挖掘,R的两均值比较检验,统计学有一系列方法检验两个样本上的均值差是否在统计上显著。
主要包括:
两独立样本的均值检验两配对样本的均值检验,等参数检验方法此外,还可以利用非参数检验方法解决类似问题,R的两均值比较检验,假设检验的基本步骤是:
提出原假设和备则假设构造检验统计量,在原假设成立条件下,服从某个已知的理论分布(抽样分布)依据样本数据计算在原假设成立条件下,检验统计量的观测值和概率-P值。
检验统计量的观测值反映了样本数据与原假设之间的差距。
概率-P值反映了在原假设成立条件下,检验统计量取当前观测值或更极端值的可能性,R的两均值比较检验,假设检验的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于R的统计分析与数据挖掘 基于 统计分析 数据 挖掘 课件