SPSS 100高级教程二数据文件的管理Word文档下载推荐.docx
- 文档编号:6750203
- 上传时间:2023-05-07
- 格式:DOCX
- 页数:31
- 大小:692.67KB
SPSS 100高级教程二数据文件的管理Word文档下载推荐.docx
《SPSS 100高级教程二数据文件的管理Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《SPSS 100高级教程二数据文件的管理Word文档下载推荐.docx(31页珍藏版)》请在冰点文库上搜索。
Open==>
Data或直接单击快捷工具栏上的“
”按钮,系统就会弹出OpenFile对话框,单击“文件类型”列表框,在里面能看到直接打开的数据文件格式,分别是:
SPSS(*.sav)
SPSS数据文件(6.0~10.0版)
SPSS/PC+(*.sys)
SPSS4.0版数据文件
Systat(*.syd)
*.syd格式的Systat数据文件
Systat(*.sys)
*.sys格式的Systat数据文件
SPSSportable(*.por)
SPSS便携格式的数据文件
EXCEL(*.xls)
EXCEL数据文件(从5.0版~2000版)
Lotus(*.w*)
Lotus数据文件
SYLK(*.slk)
SYLK数据文件
dBase(*.dbf)
dBase系列数据文件,(从dBaseII~IV)
Text(*.txt)
纯文本格式的数据文件
data(*.dat)
选择所需的文件类型,然后选中需要打开的文件,SPSS就会按你的要求打开你要使用的数据文件,并自动转换为数据SPSS格式。
也许有视力好的朋友会注意到右下方除了“打开”和“取消”两个按钮外,中间还有一个“Paste”按钮,该按钮在SPSS的大多数对话框中都存在,是用于自动生成SPSS程序的,我们以后会专门讲解该问题。
2.1.2.2
使用数据库查询打开
SPSS可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类型的数据文件(废话),比如FoxPro3.0以上版本的*.dbf文件就不能直接打开(有兴趣的话你可以试试)。
为此,SPSS还提供了另一个适用范围更广、但使用上较为专业的数据接口--数据库查询。
实际上,SPSS在这里使用的是一种叫ODBC(OpenDatabaseCapture)的数据接口,该接口被大多数数据库软件和办公软件(如MSOffice)支持,通过它,应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统。
由于SPSS10.0可以直接打开EXCEL所有系列的数据文件,因此数据库查询接口的用处不是很大。
但是,在9.0及以前的版本中,该查询仍是直接打开EXCEL95、97及2000数据文件的唯一办法。
ODBC数据引擎是独立与各种应用软件,直接安装到Windows系统中的,因此你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况。
还好,大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MSOffice)。
不过有一点要提醒大家,许多机器的OBDC数据引擎安装有问题(尤其是D版),在SPSS中使用它往往要死机。
OpenDatabase==>
NewQuery,系统会弹出数据库向导的第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读入SPSS。
我原来准备举一个具体例子,但后来发现不同版本的ODBC引擎所弹出的对话框并不相同!
不仅如此,不同的数据驱动程序其对话框也各不相同!
比如说,有的需要你的LoginID和Password,有的又不需要,因此我这里就不再讲了。
由于它使用上太专业(尤其在10.0版中,9.0版还好些),如果确实要用,请找一个对数据库接口比较熟的人来帮你。
2.1.2.3
使用文本导入向导读入文本文件
ReadTextData,系统就会弹出OpenFile对话框,对!
和前面的情况完全一样,只是文件类型自动跳到了Text(*.txt)。
实际上,该功能在SPSS中已被整合到了OpenFile对话框中之所以在菜单上保留该条目有两个原因:
1.读入纯文本的情况非常普遍,放在这里更加醒目;
2.为了和SPSS老版本的使用上保持兼容。
例2.1现有一数据文件以纯文本的形式存为“c:
\Li2_1.txt”,且第一行为变量名,请将其读入SPSS。
解:
在OpenFile对话框选中相应的文件名并单击“确定”,系统会自动启动文本导入向导对话框如下:
在SPSS10.0中,该向导并没有重新设计,因此仍然有问题被截断无法显示完的情况出现。
可以看到该向导共分6步,这是第一步。
中部为一对单选按钮,问题为“你的文本文件和预定义格式相一致吗?
”,下方为按预定义格式读入的数据文件的预览。
显然,SPSS的预定义格式并没有正确识别该文件。
因此选择“No”并单击“下一步”,系统弹出向导的下一个对话框如下:
最上方的问题是“你的变量是如何排列的?
”,下面的选项分别为Delimite(用某种字符区分)和FixedWidth(固定宽度),一般都是Delimite,第二个问题是“变量名包括在文件最前面了吗?
”,我们当然选“Yes”,单击“下一步”,系统弹出第三个对话框:
最上方的句子意为“第一条记录从第几行开始?
”,右侧可以输入行数。
由于我们所用的数据第一行为变量名,因此这里输入2。
下面的问题是“你的记录是怎样存储在文件中的?
”。
可以是“每一行代表一条记录”,或者“每**个变量代表一条记录”,数据一般都是第一种情况。
下一个问题是“你想导入多少条记录?
”,可以是“所有记录”、“前**条”或“随机导入**%的记录”。
一般也选前者。
单击“下一步”,第四个对话框如下:
我这里写的非常详细,但实际使用中你可以不管大多数问题,因为SPSS一般都能自动正确设置。
最上方的问题为“变量间用的是哪种分隔符?
”,可选的有Tab键、空格、逗号、分号或自行定义的其他符号。
本数据采用的是空格,可见系统已经自动识别并选择了空格,而下方的数据预览窗口显示出了正确的数据读入情况。
单击“下一步”,第五个对话框如下:
上方的提示为“定义在数据预览窗口中所选择的变量。
顾名思义,在这个对话框中你可以在数据预览窗口中选择某一列变量,然后更改其变量名和类型。
当然,在这里我们不用这样做,直接单击“下一步”,系统弹出文本导入向导的最后一个对话框如下:
最上面的问题为“你愿意保存这次的文件(读入)格式设置以备下次使用吗?
”,第二个问题为“你是否愿意将以上操作粘贴为SPSS语句?
”,一般这两个问题我们都可以不管。
单击“完成”,系统最终成功的读入了Li2_1.txt。
2.1.3 保存数据文件
在对数据做了修改后,保存数据文件是必不可少的工作之一。
Save,如果数据文件曾经存储过,则系统会自动按原文件名保存数据;
否则,就会弹出和选择Saveas菜单时相同的Saveas对话框。
里面可以保存的数据类型和可以打开的几乎一样多,选择合适的类型,确定就是了。
Save命令的快捷键为^S,如果你曾经领教过Windows死机的巨大潜力,那么你一定会同意习惯性的随手按^S至少不能算是一个坏习惯。
如果你准备将数据存为SPSS以外的其他类型,要注意有些设置可能会丢失,如标签和缺失值等。
尤其是缺失值,如果想存的数据格式不支持缺失值,那你的数据可能会变的面目全非。
2.1.4 File菜单中的其他条目
【DispDataInfo】
该菜单项用于显示数据的基本信息,选择它后会弹出非常类似于打开文件的一个对话框用于选择数据文件,选择好后按OK,系统就会在结果窗口中列出所选数据的基本情况,如建立时间、标签设置、记录数、变量设置等。
【ApplyDataDictionary】
即使用数据字典,该功能使你可以直接在新数据集中套用以前定义好的变量设置(格式、标签等,但不包括数据类型),举个例子吧:
请打开Li1_1.sav文件,将变量x的长度从8改为4,标签删掉,然后选择菜单File==>
ApplyDataDictionary,在文件对话框中选择Li1_1.sav并按OK(即将Li1_1.sav的变量设置按相同变量名一一套用在现在的数据集上),怎么样?
一切都变回去了吧。
【CacheData】
建立数据缓冲区。
以前SPSS每执行一条命令都会重新读取所需的数据,如果是从远程用SQL调用数据库,这会非常的费时。
现在使用CacheData,可以将数据全部读入暂存盘,建立活动数据的缓冲区。
大大加快处理速度。
不过我特意试了一下,如果是处理本机数据的话,该命令对速度的提升不是非常明显:
(。
【Print和PrintPreview】
这两个菜单项用于将数据管理窗口中的数据以表格的形式打印出来,其中PrintPreview是新增加的,使用上和WPS2000的打印预览非常相似(其实用的是同样的程序),不过和SPSS结果的打印程序一样,用SPSS直接打印数据非常的浪费纸张,用不用你自己决定吧。
【StopProcessor】
用于停止执行当前的SPSS命令。
由于SPSS处理速度非常的慢,如果你正在对一个大型的数据执行统计命令,等了半天都没有结束,此时你的另一半约你逛街的时间又要到了,可是你的结果还没有存,执行命令时又存不了,怎么办呢?
试试这个命令吧。
并非所有的命令都可以喊停的,许多数据库操作命令(计算变量,合并等)好象就停不了。
2.2 编辑数据文件
在SPSS中,数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中,这两个菜单的内容如下所示:
Data菜单项
Transform菜单项
下面我们将根据其功能来分别讲述。
2.2.1 定义新变量
2.2.1.1 直接定义新变量
大多数情况下我们需要从头定义变量,在SPSS10.0中,定义变量的操作界面和FoxPro等数据库非常相似,只需单击左下方的VariableView标签就可以切换到变量定义界面开始定义新变量。
如Li1_1.sav的变量定义如下所示:
以变量x为例:
变量名为x,类型为Numeric,宽度为4,小数位数2位(因小数点还要占一位,故整数位只有一位),变量标签位为“血磷值”。
右侧在图中未能看到的依次为Values,用于定义具体变量值的标签;
Missing,用于定义变量缺失值;
Colomns,定义显示列宽;
Align,定义显示对齐方式;
Measure,定义变量类型是连续、有序分类还是无序分类。
使用该窗口,我们可以一次定义许多新变量,不会象老版本那样一个一个的定义了。
由于SPSS是英文软件,变量名采用中文会有潜在的冲突(100%的兼容性是不存在的,典型的例子就是微软公司的产品)。
对于喜欢搞点花样的用户,这里有必要介绍一下SPSS中标签和缺失值的定义方法:
标签
和老版本不同,现在变量标签和变量值标签被分开设置,变量标签就在Label框中直接输入,变量值标签则在它右侧的Value框定义。
以group为例,单击Value框右半部的省略号,会弹出变量值标签对话框如下:
上部的两个文本框分别为变量值输入框和变量值标签输入框,分别在其中输入“1”和“克山病患者”,此时下方的Add钮变黑,单击它,该变量值标签就会被加入下方的标签框内。
与此类似定义变量值“2”为“健康人”,最后按OK,变量值标签就设置完成。
此时你做任何分析,在结果中都有相应的标签出现。
如果你现在就想看效果,切换回DataView界面,然后选择菜单View==>
ValueLabels,怎么样,看到了吗?
缺失值
单击missing框右侧的省略号,会弹出缺失值对话框如下:
界面上有一列三个单选钮,默认值为最上方的“无缺失值”;
第二项为“不连续缺失值”,最多可以定义3个值;
最后一项为“缺失值范围加可选的一个缺失值”,文如其意,不用我多解释了吧。
数据文件的管理
(2)
2004-7-1222:
01:
00 信息来源:
医学统计之星
∙ SPSS10.0高级教程二:
数据文件的管理
(2)
生物谷网站
2.2.1.2 从原有变量计算新变量
从头定义变量的情况多数在建立数据集时出现。
但是,当数据集已经建立,需要整理、转换变量时,碰到的更多情况是需要根据某种条件从原有变量计算新变量。
下面我们将按菜单条目的顺序依次讲解他们的功能。
但是,首先我们需要了解一下所用的对话框界面的情况。
【SPSS对话框元素介绍】
下面是我们在第一章曾经见过的两样本t检验对话框:
这是一个非常典型的SPSS对话框。
它包含了许多具有SPSS特色的对话框元素:
o对话框左侧为候选变量列表框,里面列出了可被该对话框使用的变量;
o右上方为TestVariables框,可将变量选入其中;
注意在两个框的中间用“
”相连,这是变量移动按钮,其方向表明是将变量从那个框移动到哪个框,上图中我们选中了变量group,两个移动按钮均变黑并向右指,表明变量group可以移动到他们右侧的两个框里去,改变当前框(在其他两个框里单击),移动按钮就会转向、变灰等以表明不同的意思(墙头草一个,可别小看这个功能,我想用VB实现这个功能,也是费了些工夫才把它搞定了);
o右侧为一排五个按钮,分别是确定、粘贴、重置、取消和帮助。
这五个兄弟也是几乎永远一起出现的,另外四个大家都比较熟悉了,重置(Reset)按钮用于取消对话框内已做的选择,恢复到默认的状态;
o最下方有个Options按钮,用于设置专门用于该对话框的选项;
oOK、Paste两个按钮为灰色,表明所需条件尚未满足,该按钮暂不可用。
同理,GroupingVariable框下方的DefineGroups按钮为灰色显示,也表明暂不可用。
【ComputeVariable对话框】
例3.2
在li1_1.sav中建立新变量temp,令其值当血磷值大于1时为2,否则为1。
这里需要用到ComputeVariable对话框,外加一点技巧。
首先给变量temp均赋值为1,然后将血磷值大于1的记录其temp变量值改为2即可。
选择菜单Transform==>
Compute,弹出ComputeVariable对话框如下:
左上角为需要计算的变量名,在其中键入“temp”,此时“Type&
Lable”按钮就会变黑,喜欢精确的朋友可以在这里对temp进行详细的定义,但如果你和我一样非常懒,就可以对它视而不见(不要生气,聪明人大多都非常懒:
));
左下方为候选变量列表,现在还用不着;
中部为类似计算器的软键盘,可以用鼠标按键输入数字和符号,这里我们直接输入“1”,输入的内容回立刻在右上方的数值表达式窗口中出现;
软键盘右侧为函数窗口,可以在这里找到并使用所需的SPSS函数;
这次也用不到。
好,现在“OK”按钮已经变黑,单击他,系统就会自动生成一个新变量temp,并且取值均为1。
软键盘上几个奇奇怪怪的符号的含义如下:
~=
&
|
**
~
不等号,等价于<
>
逻辑符号AND
逻辑符号OR
乘方,相当于函数EXP()
逻辑符号NOT
在函数窗口中选中某个函数并单击右键,系统就会弹出该函数的用法说明。
函数主要是和变量名组合起来使用的,比如说ABS(x)就是取变量x的绝对值。
好,现在开始进行第二步,再次选择菜单Transform==>
Compute,系统也再次弹出这个对话框--等等!
注意到了吗?
该对话框自动记住了你上次输入的内容,几乎所有SPSS的对话框都有这个特性,这会大大方便我们的使用。
好,将数值表达式窗口中的1改为2,然后单击中下部的“If”按钮,系统弹出记录选择对话框如下:
不需要太多解释,大部分内容都是前面见过的。
由于我们这里不是对所有记录做变换,因此选中第二个单选钮“Includeifcasestatisfiesconfition:
”,此时下方的所有窗口变亮,表明现在可用;
而“Continue”按钮变灰,表明当前还没有提供所需的信息,好,我们就来提供,在左侧选中血磷值(x),然后单击“
”,x就被引入了右侧的变量框,任你用键盘或者用鼠标,总之将下面这个算式补充完:
x>
1。
现在可见“Continue”按钮再度变黑。
在它又变灰之前赶快单击它(开个玩笑),系统回到ComputeVariable对话框,请注意If按钮右侧的变化:
2。
如果你做的结果不一样,请重来一遍。
现在单击“OK”按钮,由于我们要替换变量值,系统会弹出一个确认对话框,确认替换,马上你就会看到,我们已经把这道题做完了。
【Count对话框】
Count对话框用于计算某个值或某些值在某个变量的取值中是否出现(好象有点拗口),比如我们想看看有哪些记录的血磷值在2~3之间,选择菜单Transform==>
Count,系统弹出Count对话框如下:
TargetVariable框中用于指定记录变量值是否出现的变量名,在这里输入temp2;
选中血磷值(x),将其选入Variables窗口,此时“DefineValues”按钮变黑,单击它,系统弹出变量值定义窗口如下:
左半部为变量值定义窗口,可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。
我们这里是第四种情况:
选择Range,在through两侧分别键入2、3,然后单击已变黑的“Add”按钮,“2thru3”就会被加入“ValuestoCount”框内。
然后单击“Continue”,再单击Count对话框的“OK”,可以看到系统自动生成变量temp2,其中10、11号记录因血磷值介于2和3之间,temp2取值为1,其余的记录temp2取值均为0。
SOS,SOS,请大家千万注意,Count对话框有一个潜在的bugs,当你需要计算同时满足两个变量取值条件的记录数有多少时,直接用该对话框会得出完全错误的结果。
这里有一点技巧,需要对对话框生成的指令加以修改,至于怎么修改嘛,我们将在Syntax(语法)窗口使用详解一章中讲述:
【Recode对话框】
Recode对话框用于从原变量值按照某种一一对应的关系生成新变量值,可以将新值赋给原变量,也可以生成一个新变量。
例2.3
在Li1_1.sav中生成新变量temp3,当血磷值小于1时取值为0,1~2时取值为10,大于2时取值为20。
Record==>
IntoDifferentVariables,Recode对话框如下:
将血磷值(x)选入InputVariable->
OutputVariable框,此时OutputVariable框变黑,在其中键入新变量名temp3并单击Change,可见原来的x->
?
变成了x->
temp3。
现在单击“OldandNewValues”,系统弹出变量值定义对话框如下:
许多东西和前面类似,不再重复。
按照题目的要求,选择Range:
Lowestthrough,在右侧框中键入1,然后在右上方的Value右侧框中键入对应的新变量值0,此时下方Add键变黑,单击它,Old->
New框中就会加入Lowestthru1->
0,按照类似的方法依次加入另两条转换规则,最终Old->
New框中共有Lowestthru1->
0、1thru2->
10、Else->
20三条,现在单击Continue,再单击OK,系统就会按要求生成新变量temp3。
哎呀不得了,图片太多了,虽然这样非常直观,但下载速度太慢了。
等大家对基本界面操作熟悉了后,我们将对比较简单的对话框试着对操作用文字的方式描述,比如上面的操作我们将用文字表达为:
1.OutputVariable框:
选入x
2.OutputVariableName框:
键入temp3:
单击Change钮
3.选中x->
temp3:
单击OldandNewValues钮:
4. Range:
Lowestthrough单选钮:
键入1:
NewValueValue单选钮:
键入0:
单击Add钮
5. Range:
through单选钮:
两侧分别键入1、2:
键入10:
6. Range:
Allothervalues单选钮:
键入20:
7. 单击Continue
8.单击OK
怎么样,还能理解吧。
【CategorizeVariables对话框】
CategorizeVariables对话框用于将连续性变量自动按要求分成等间距的几类。
其界面非常简单,许多东西都是我们所熟悉的,唯一特别的是右下方的numberofcategories框,用于输入变量的等级数,默认为4,比如我们希望将血磷值按大小分成5个等级,先将血磷值选入CreateCategories框,然后将下面的4改为5,单击OK,就会看到系统产生了一个新变量nx(即numberofx之意),其取值就对应了血磷值相应的5个等级(1~5)。
重复一下,具体操作步骤为:
1.CreateCategories框:
选入x
2.Numberofcategories框:
5
3.OK
【RankCases对话框】
例2.4
请分组计算血磷值的秩和。
RankCases,弹出RankCases对话框如下:
将血磷值选入Variable框,分组变量选入By框,单击OK即可。
系统会建立一个新变量rx(即原变量名前加r表示Rank之意),其取值为x分组的秩次。
解释一下RankCases对话框的其他几个零件:
o左下角的AssignRank1to框架用于选择将秩次1赋给最小值还是最大值;
o中下部的Displaysummarytables复选框用于确定是否在结果窗
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 100高级教程二数据文件的管理 100 高级 教程 数据文件 管理
![提示](https://static.bingdoc.com/images/bang_tan.gif)