网络信息采集大师使用手册Word文件下载.docx
- 文档编号:3786556
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:32
- 大小:2.41MB
网络信息采集大师使用手册Word文件下载.docx
《网络信息采集大师使用手册Word文件下载.docx》由会员分享,可在线阅读,更多相关《网络信息采集大师使用手册Word文件下载.docx(32页珍藏版)》请在冰点文库上搜索。
在移动一个类之前,要先选择[自定义类别]的子类或者回收站里的类。
把一个类移动到回收站就是删除该类。
类别修改:
在[自定义类别]点右键\属性,或者选菜单任务\属性。
在打开的窗口修改后保存。
类别删除:
删除分两种:
临时删除和彻底删除。
把[自定义类别]的类删除属于临时删除,把回收站里的类删除属于彻底删除。
三、URL导航类型任务
URL导航类型任务是使用最为广泛的任务类型,特点是低耗高效,功能极其强大。
任务的建立有很多技巧,可在实践中去体会。
可在官方网站找到经常会更新的帮助信息:
在线帮助|常见问题解答
下面介绍关于任务设置的基本概念,核心内容和设置技巧:
综述:
URL导航任务最为常用。
在浏览器里浏览不同的网页数据,地址都会随之做相应的变化,这种情况最适合URL型。
URL型的特点是低耗高效,可在系统工具栏‘选项’里面通过设置不同的运行线程数,自由控制速度。
需要登录才能看到的信息,要先在'
登录设置'里进行登录.
1.1任务概述
点工具栏里的‘新建’或者菜单‘任务\新建’。
打开新建任务窗口。
如图:
任务名称:
必填项。
给该任务起一个具有标示性的名字。
可以是汉字,字母,数字或其组合。
任务注释:
可选项。
给该任务作一个备注。
所属类别:
可选择"
自定义类别"
或其子类的任一分类。
任务类型:
用URL导航类型。
登录设置:
有些网站需要登录后才能看到需要的数据,可在此处登录,登录后关闭登录窗口, 即可保存登录设置。
点[下一步]后,进入采集规则的设置。
1.2采集规则
此页数据的填写较为关键,直接关系到数据能否采集。
起始地址:
要采集页面的开始地址。
也可以是一个本地文件,如c:
\list.txt,该文本文件里是采集页面的地址集合。
导航关键字:
可连接到下一页的关键字符串。
一般来说采集的信息是多页的,如,等等,页码数字前面的字符串page就是导航关键字。
若不添该项,则只采集起始地址的数据。
采集页数范围:
采集哪一页到哪一页之间的数据,可以是1到1000,也可以是1001到1500等。
若不添该项,则只采集起始地址的数据。
增量:
默认为1。
一般来说页码变化是连续的。
采集网址标识:
需要抓取数据的页面的URL地址关键字。
若采集本级页面数据,为空即可。
过滤网址标识:
不打算采集的页面地址里的关键字,一般情况下不用。
关联网址标识:
一次采集多个页面的信息组合成一条数据。
在此填写关联网址的关键字。
注意该标识符在整个网页源码中具有唯一性,可以组合url前后的字符串来标识。
采集数据页包含分页:
一般用来采集新闻,文章等一篇文章用多个页面来显示的情况,关键字就是分页地址里的关键字符串。
采集关键字替换:
一般不用,为了提高采集效率设置。
目的是把某些url地址,直接替换成自己想要采集数据的url地址;
而这个地址可能隐藏在比较深的页面之下,若直接采集的话,会在查找url地址上浪费大量时间。
点[下一步] 后,进入数据提取规则的设置。
1.3数据提取规则
本页提取多行同类数据:
比如只采集文章的标题列表等。
中文名称:
自己随便命名.比如‘姓名’‘联系地址’等。
前标识符:
确定一个数据值的前符号。
在源文件里查找。
(先在软件的浏览器里打开要分析的网页,然后点‘源文件’按钮,可显示要分析的源文件数据。
注意不要直接用ie浏览器得到网页源代码,一定要用软件的‘源文件’按钮)
后标识符:
确定一个数据值的后符号。
参考前标识符的解释。
信息类型:
其中有几种最为常用,分别予以解释:
URL类型:
当一个数据项被设置成URL类型时,假如采集到地址不完整,会自动格式化成一个完整的地址。
比如采集到的是/1001.htm,而任务的'
网站首页'
设置为,那么地址会自动格式化为
附加类型:
采集的信息里,有循环的,有不循环的,这时不参与循环的要设置为附加类型。
附加类型的数据项可在信息的头部或底部,不可在中间穿插。
常量:
有时采集的数据项里, 其中有一个或多个数据项不需要采集, 但要和采集结果在一起,可把这些数据项设置为常量,常量的值就是前标识符的值。
多媒体类型:
用于自动下载二进制文件。
比如采集到类似,会自动下载到本地。
文章类型:
用于采集新闻等。
关联地址类型:
该类型数据用于作为关联URL使用,可实现把分散在多个页面数据整合成一条。
与"采集规则-关联网址标识"
作用类似。
提取数据页的全部数据作为一个数据列:
把采集的数据整个输出。
一般适用于数据很难拆分的情况。
若使用该项,下面的不用再设置。
保存对应的URL:
有时候URL能标识一行具体的数据,这样数据导入数据库后,用户能很方便的分辨。
区分大小写:
采集英文的数据,可选中此项,因为中文没有大小写之分。
(采集新闻最好选中该项,有些图片地址对大小写敏感)
自动截取字串:
使用默认即可。
保留html代码:
默认情况下,采集到的html代码中,<
>之间的部分会自动清除,选中该项后可保留代码;
比如采集文章等,保留原代码相当于保留了原格式。
该选项是针对每个数据项的,这样做的好处是有些数据项是不需要保留html代码的,有更大的灵活性。
附:
填写前后标识符要领
1.一个数据项,一定要在前后标识符之间。
比如类似这样的源文件:
<
tr>
地址:
/td>
北京...<
/td>
/tr>
。
要采集‘地址:
北京’,那么前标识符是‘<
’,后标识符是‘<
/tr>
’,而不是‘<
/td>
’。
因为‘北京’前面已经有个‘<
至于<
>之间的数据,软件会当作无效字符,自动忽略。
当然,如果选中'
保留html代码'
<
>之间的字符会保留下来
2.采集数据项的顺序一般要和网页上的数据项的顺序一致。
这个很好理解,提取信息是按照从上而下的顺序。
当然,如果去掉‘自动截取字符串’选项,则可以不按照从上而下的顺序,但要确保每个采集项的前后标识符具有唯一性,否则采集到的数据可能不是想要的数据。
3.若打开‘区分大小写’选项,则前后标识符的大小写一定要正确。
采集英文信息注意打开此项。
四、脚本类型任务
脚本类型任务适用于javascript等脚本来操控网站的情况,如点下一页时地址栏没有变化,用类似javascrip:
post('
next'
1)
等来控制。
可在官方网站找到经常会更新的帮助信息:
在线帮助 | 常见问题解答
综述:
脚本类型任务的‘任务概述’和‘数据提取规则’与URL导航类型任务基本一样,不同之处在于采集规则,这里只讲述
采集规则设置。
操作界面如下:
脚本类型任务分脚本式和点击式。
脚本式:
在把鼠标放在一个页面地址链接上面的时候,在浏览器状态栏的左下角,会显示鼠标所在处的url地址,有些地址是完整的,有的是类似javascript:
submit('
page'
2)等样式,这种情况下,可用脚本式。
比如,前脚本是 javascript:
submit('
page'
,后脚本是),页码变化范围可以是1 , 10等等,即前脚本+当前页码+后脚本=一个完整的脚本链接
点击式:
一般来说,点击式可包容脚本式,一个页面里的"下一页", "
下页"等等都可以作为脚本式的"
导航对象的标签"
;
导航对象的索引值即指该导航对象标签在整个页面中所处的位置,填写导航对象的标签会忽略其索引值的填写。
可以指定点击次数,也可以是直到最后一页才结束。
五、地址列表类型任务
地址列表类型的任务,适用于已经有大量的数据源地址(URL),可以直接用这些URL直接获取数据的情况。
可以用这种类型任务采集
本地磁盘上的信息,也可以采集网络上的信息。
其本质和URL类型任务相似。
官方网站经常会更新的帮助信息:
在线帮助 | 常见问题解答
地址列表类型任务的‘任务概述’和‘数据提取规则’与URL导航类型基本一样,不同之处在于采集规则,这里只讲述采集规则设置。
操作界面如下:
指定本地文件:
必须是一个文本文件,里面是要采集的URL地址集合。
如下图:
也可以让软件自动分析网上的某一个页面得到地址列表。
后台执行:
默认是从后台获取数据,和URL导航类型类似;
不选该项,则和脚本类型任务相似,运行前弹出类似ie窗口。
六、数据采集的更多高级设置技巧(任务-数据提取规则-‘更多设置’按钮)
可以设置数据自动保存,编码方式,获取网页框架等;
可以设置完整采集或增量采集(断点续采);
可以边采集边过滤,把不符合条件的数据过滤掉;
可以自动分类。
把采集的数据按照自己的要求自动归类。
可以边采集边自动加工,包括多个采集项和字符串自由合并,数据替换,数据删除等;
可以设置功能强大的新闻采集参数,设置新闻模板等。
把设置好的任务,加入到任务调度里面,就可以实现自动采集,自动加工,自动发布(入库)的一条龙自动化采集流程!
一.常规。
包含自动保存,编码方式,获取网页框架数据等。
二.采集类型。
包含完整采集和增量采集(断点续采),增量采集可有效的减少网络负荷,只对新增的数据进行采集;
增量采集只需设置URL采集项和表的存放URL地址的字段对应即可。
三.采集过滤。
可根据自己设定的过滤条件,对不符合条件的数据自动过滤掉。
四.自动分类。
自动分类用于对采集的数据,可按照自己事先设置好的关键词,自动归类。
如下图是一个自动分类的公式:
其中:
分类,公司名称是采集项名称,包含在[] 之间表示作为变量。
上面公式的含义是:
如果公司名称这个采集项里包含北京,上海,深圳这三个关键词中的任意一个,则给分类这个采集项赋相应的值。
可以创建任意多个公式,比如再添加一个公式:
[分类1]=[公司名称]机械,化工,电子,餐饮,网络 ,那么就是对公司名称这个采集项作为按行业分类 。
两个公式实现了对采集的数据既按地区又按行业进行自动分类。
分类之外的默认为‘其他’,表示采集项里不包含罗列出的关键词,则以‘其他’作为分类名称。
五.采集加工。
对采集到的数据,可自动加工。
包括数据合并组合与数据替换。
可一次添加多个公式,每个公式之间用回车隔开。
1.数据合并。
如下图,可自由设置数据合并公式,[]之间是变量,即某个采集项;
下图数据合并的结果就是把名称和联系人两个采集
项的值,一同赋给名称这个采集项。
在其中也可以添加常数,如:
[名称]=123+[名称]+456+[联系人]等等。
特殊字符处理:
空格用#32表示,Tab用#9表示,回车用#13#10表示。
如:
[名称]=123+#9+[名称]
2. 数据替换。
书写格式如下图,采集项作为变量,用[]括起来,[替换为]是关键字符,表示把某个采集数据项里的某某替换为某某;
假如
打算把某某字符删除,则直接写 '
[采集项名称]=某某[替换为]'
即可。
六.文章化处理。
适用于采集新闻,产品介绍等文章类数据,特别是需要把这些数据里面的图片等文件下载到本地。
如下图,首先要选中’此任务规则用来采集新闻,通告,产品介绍等文章类数据‘,下面的设置才会生效。
(采集项的采集类型要设置成”文章类型“,在数据提取规则里设置)
文章(正文)或图片等文件自动下载到目录:
文章和图片会下载到此目录下(图片下载到\image)。
下载图片同时下载文章:
把与之对应的文章也下到本地。
图片下载后,更新正文信息时使用相对路径:
图片会下载后,会同时更改正文的该图片路径。
相对路径格式为image\*.jpg;
不选该项使用绝对路径,,如c:
\news\image\1.jpg。
文件下载时,遇同名文件自动重命名:
图片或文件保存到本地磁盘时,遇到同名文件自动命名;
默认为覆盖掉同名文件。
采集项的第几个作为文章名称:
若该值为0,则用原文件名,否则使用第几个采集项的内容作为下载后的文件名。
应用模板文件:
可针对采集项作模板,文章下载后按照设定的模板格式填充内容。
例:
假如有这样一个采集任务,包含‘标题,新闻来源,时间,正文’4个采集项,可做一个这样的模板文件(<
html>
和<
/html>之间的文字是模板文件内容,txt,htm等类型文件均可):
html>
title>
[标题]<
/title>
p> <
h1>[标题]</h1>
<p>
来源:
[新闻来源] &
nbsp;
&nbsp;
&
nbsp;
nbsp;
时间:
[时间]<
p>
[正文]
/html>
采集的数据就会正确填充到相应的地方,然后把文件保存到本地,这样一篇篇新闻就按照自己设定的格式完成了。
采集新闻注意事项:
若不打算把采集到的新闻自动保存为本地文件,则不用特殊设置,只按照采集普通信息设置即可,否则需要注意以下地方:
把采集正文的采集项,信息类型设置成文章类型,同时允许保留html代码,最好选中区分大小写(有的图片文件名大小写敏感)。
在该任务-更多设置-文章里,设置相应的选项。
假如新闻正文里包含有广告等不打算要的内容,可使用更多设置-数据加工-数据替换,把非法字符替换为空即可(相当于删除)。
七、任务调度
任务调度即调度任务的运行。
可设置为自动随软件运行,或在某个时刻运行;
可运行指定的次数,或者循环运行。
从而达到使采集的数据同步,实现从采集到加工到数据发布的一条龙服务自动化。
1.设置任务调度:
菜单-任务-任务调度,会打开如下窗口
双击左边的‘所有任务’里的一个任务,就会添加到‘自动运行任务’区,在此区域选择一个任务,即可对此任务做调度设置。
2.采集的数据会自动添加到数据库里面,因此需要对连接数据库做正确的设置。
刷新(若此时未做数据库连接参数配置,需要先配置连接),选择一个表后,点数据列对应关系后的小按钮,会打开如下窗口:
在此窗口,可把采集的数据与选择的表做一一对应连接。
并且可设置不可重复数据列,这样当采集的数据有重复的时候,会自动过滤。
设置完后,保存该任务的设置,然后再进行下一个任务的设置。
当软件启动后,会自动弹出自动运行筛选窗口,决定对哪些任务进行调度。
每个任务的调度参数设置完后,都要‘保存设置’,然后再设置下一个需要调度的任务。
数据库表需要注意三个问题:
字段类型,字段长度和唯一索引或主键。
设置数据库注意的问题请看‘数据库’一节的说明。
八、数据导出(发布)
可把采集的数据导出为3种类型:
文本,Excel和数据库。
一。
导出为文本:
只有窗口的上半部分的功能有效,下半部分为数据库功能,不用设置。
若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;
可选择导出的数据范围,比如1-1000行,5000-20000行等。
二。
导出为Excel:
只有窗口的上半部分的功能有效, 下半部分为数据库功能,不用设置。
若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;
可选择导出的数据范围,比如1-1000行,5000-20000行等。
导出excel时不要对excel文件有任何操作(点击,调整宽度等),否则可能导致异常;
若没任何操作情况下仍有异常,一般重装Office软件可得到彻底解决。
三。
导出到数据库:
导出到数据库时,窗口的上半部分只有“导出行范围”有效,列标题不会导入到数据库。
窗口的下半部分,即标志“数据库”的部分才需要重点设置。
一般需要进行以下步骤:
1.配置数据库连接。
目前完整测试的数据库有Access,Sqlserver,Oracle,MySql。
2.选择导入哪个表。
假如已经配置好了数据库连接,点“刷新”,可得到连接数据库的表,选择一个表导入。
或者使用新表,勾选“使用新表”,添入表名称,可自动创建表。
3.假如是导入数据库里已经存在的表,并且表里的字段个数(或叫列个数)与采集数据项的个数完全一致,并且字段长度可容纳采集的数据,可直接点“确定”,数据会自动导入数据库。
假如不能满足这两个条件(即字段和采集项个数一一对应,字段长度足够长),导入数据库会发生异常;
字段长度不够可到数据库里更改字段长度(字段应该是字串类型或兼容类型,如SqlServer的text类型也可以,至于多长合适可用“表字段长度参考”,长些无妨);
不是一一对应的,可用“定义数据接口”,打开如下界面:
在此窗口中可设置哪个数据项对应哪个字段,还可设置不可重复数据列(发现重复的数据自动过滤掉),非常方便。
常见问题解答:
为什么导入数据库有时发生异常?
导入到数据库,需要注意以下三点:
导入到数据库的数据,默认的都是字符串类型,因为从网上采集的数据,难免有不规范的,而字串是通用的数据类型。
因此,当导入异常时,可检查数据库表是否有其他类型,确保所有的字段都是字符串类型或兼容类型(如ntext类型,备注类型等)。
表的字段长度要足够。
把长度为100的数据导入到只有50长度的字段中,肯定会出错。
所以要给表的字段长度足够才可以。
采集数据项和表的字段要一一对应。
假如采集的数据项是5个,而表里的字段个数为大于或少于5个,那要设置“自定义接口”,设置一一对应关系(需要导入哪几个采集项就设置哪几个, 最少要设置一个)。
不导入数据的字段一定要允许为空, 或者不允许为空但要有默认值, 否则出错。
总结为一句话:
字段类型,字段长度和一一对应。
这三点都作正确了,就可正确的导入到数据库。
总之,导入数据库时要符合数据库的基本要求。
九、数据库
连接数据库:
连接Access和sqlservcer(数据库接口是OLEDB)
若是连接sqlserver,数据库有密码时,要注意选中"允许保存密码"
,如下图:
连接到Oracle和MySql有专用数据库接口,在"
配置数据库连接"
窗口选择相应的类型,就会打开配置窗口,填写参数,保存即可。
如下图:
导出数据到数据库。
可把采集的数据导出为3种类型:
文本, Excel和数据库。
A.导出为文本:
只有窗口的上半部分的功能有效,下半部分为数据库功能,不用设置。
若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;
可选择导出的数据范围,比如1-1000行,5000-20000行等。
B.导出到Excel:
只有窗口的上半部分的功能有效, 下半部分为数据库功能,不用设置。
若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;
可选择导出的数据范围,比如1-1000行,5000-20000行等。
导出excel时不要对excel文件有任何操作(点击,调整宽度等),否则可能导致异常;
C.导出到数据库:
一般需要进行以下步骤:
1.配置数据库连接。
目前完整测试的数据库有Access, Sqlserver,Oracle,MySql。
3.假如是导入数据库里已经存在的表,并且表里的字段个数(或叫列个数)与采集数据项的个数完全一致,并且字段长度可容纳采集的数据,可直接点“确定”,数据会自动导入数据库。
假如不能满足这两个条件(即字段和采集项个数一一对应,字段长度足够长),导入数据库会发生异常;
字段长度不够可到数据库里更改字段长度(字段应该是字串类型或兼容类型,如SqlServer的text类型也可以,至于多长合适可用“表字段长度参考”,长些无妨);
不是一一对应的,可用“定义数据接口”,打开如下界面:
常见问题解答:
导入到数据库的数据,默认的都是字符串类型,因为从网上采集的数据,难免有不规范的,而字串是通用的数据类型。
因此,当导入异常时,可检查数据库表是否有其他类型,确保所有的字段都是字符串类型或兼容类型。
把长度为100的数据导入到只有50长度的字段中,肯定会出错。
假如采集的数据项是5个,而表里的字段个数为大于或少于5个,那要设置“自定义接口”,设置一一对应关系(需要导入哪几个采集项就设置哪几个,最少要设置一个)。
不导入数据的字段一定要允许为空,或者不允许为空但要有默认值,否则出错。
总结为一句话:
十、系统设置
该设置在菜单的工具\选项里面,或者工具栏的选项。
最多同时运行的任务数:
默认为五个。
每个采集任务都会占用一定带宽。
为了保障每个任务都能顺利运行,同时运行的不要过多。
提示助手显示时间:
在每个窗口的每一个重要参数的填写上,鼠标在上面停留一下,就会显示相应的帮助信息。
可设置显示多长时间后自动消失。
密码保护:
在软件启动时提示输入登录密码。
代理设置:
可通过代理服务器采集数据。
搜索深度:
一般不用改动就能很好采集数据,深度大于1后会在查找数据上花费更多时间。
线程数:
默认5个。
可理解为同时有几个机器人去抓取数据。
一般设置为3-10个,就可大幅度提高采集效率。
退出时保存日志:
启用软件后可记录日志。
十一、其他
备忘录:
一天的采集任务很多,怕有遗忘的时候,可通过备忘录,代为记忆。
扩展菜单:
一般是为了扩展数据分析功能。
比如您自己开发了一个数据库软件,这个软件用来分析采集的数据,
可把软件挂接在本软件上,方便使用。
日志:
记录每个重要的操作。
比如对类别的维护,对任务的维护等等。
可对日志进行清理和备份。
密码保护:
如果您不想他人随意进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 采集 大师 使用手册