火车头采集器初学者入门教程.pptx
- 文档编号:14742368
- 上传时间:2023-06-26
- 格式:PPTX
- 页数:45
- 大小:1.95MB
火车头采集器初学者入门教程.pptx
《火车头采集器初学者入门教程.pptx》由会员分享,可在线阅读,更多相关《火车头采集器初学者入门教程.pptx(45页珍藏版)》请在冰点文库上搜索。
火车头采集器火车头采集器使用流程说明使用流程说明主讲人:
刘崇秀QQ:
2415290目录目录n一、软件下载n二、新建站点n三、采集网址n四、采集内容n五、其他功能火车头采集器官网地址为:
http:
/最新版本为8.4,可以从官网下载到,下载地址:
http:
/apache、mysql可以使用一键安装软件XAMPP:
http:
/http:
/navicatformysql版http:
/软件需要破解注册码:
NAVH-WK6A-DMVK-DKW3名称和组织不用填写一、软件下载一、软件下载火车头采集器有付费版和免费版,免费版基本能满足需求。
下面内容是以免费版功能进行的讲解。
打开火车头软件出现如何界面,由于使用的是免费版本,不用修改,点击登录即可。
运行火车头采集器运行火车头采集器打开火车头软件,界面如下图:
二、新建站点二、新建站点第一步:
根据需要建立分组或任务,任务需要建立在分组之下(如下图)二、新建站点二、新建站点二、新建站点二、新建站点第二步:
点击“新建站点”后出现如下界面。
填写任务名称第二步:
点击“新建站点”后出现如下界面。
填写任务名称点击起始网址区域右侧“添加”按钮后,根据需求选择添加采集网址模式,这里我们先选择“批量/多页”为例:
三、采集网址三、采集网址三、采集网址三、采集网址以抓取慧聪业界动态http:
/ID页数,“项数”右侧输入一共要采集的数量,一般为最后页码数。
查看下方预览区域中网址是否正确,如正确点击“添加-完成”按钮。
如果添加后发现有错误,可用鼠标点击完成下方的网址,选择删除即可。
三、采集网址单挑网址三、采集网址单挑网址在“单挑或多条网址”区域下方输入要采集的网址(一行一个),点击添加“按钮完成”按钮,完成添加。
三、采集网址文本导入三、采集网址文本导入有时我们知道要采集的网址,或者有时用程序批量生成要采集的网址可以用“文本导入”功能。
下面是在文本编辑器中输入范例中的部分网址的示例,接着我们把这部分网址导入到火车头采集器中,作为采集目标源。
三、采集网址文本导入三、采集网址文本导入点击“浏览”按钮,找到自己想要导入的文本文件,点“确定”按钮返回该窗口,点击“添加-完成”按钮完成添加任务。
三、采集网址三、采集网址点击“完成”按钮,则出现以下类似界面,起始网址处可以看到新添加的要采集的网址:
三、采集网址三、采集网址-多级网址获取多级网址获取如果要获取的信息是在这个页面中的链接,就需要设定“多级网址获取”。
点击“多级网址获取”右侧的“添加”按钮。
三、采集网址三、采集网址-多级网址获取多级网址获取为了更精准获取要采集的网址,会设定在页面某区域中获取相关网址。
以第一页为例,可以看到网址截取区域开始以及结尾页面的内容。
网址截取区域开始网址截取区域结尾三、采集网址三、采集网址-多级网址获取多级网址获取查看页面源代码,我们以“业界动态”快速定位到要抓取网址区域开始附近,通过代码分析,可以判断出标红区域中代码为唯一代码(必须为唯一代码,否则抓取内容会不准确),标记为开始内容。
同理可以获取到页尾代码:
三、采集网址三、采集网址-多级网址获取多级网址获取11、从网页自动分析得到地址链接:
、从网页自动分析得到地址链接:
在方框内输入刚才判断的截取区域开始和结束代码,点击“保存”按钮。
如想测试采集的网址效果,点击右下角的“测试网址采集”。
如确定信息正确点击“保存”按钮。
三、采集网址三、采集网址-手动填写链接地址规则手动填写链接地址规则22、手动填写链接地址规则:
、手动填写链接地址规则:
与“从页面自动分析获得地址链接”模式多了一块功能区域。
从网页源代码中我们可以看到每篇文章的源代码大体如下:
O2O+会员营销会员营销,千亿盛千亿盛宴你准备好了吗?
宴你准备好了吗?
11月月10日日18:
54其中粗体红色、蓝色为变动值,框住网址部分,点右侧的“参数”替换网址,“实际连接”处由于网址采用相对路径,需要手工加上前面域名和路径(如链接地址是完整的,可以忽略执行这一步。
)其他变动信息用(*)替换掉。
页面中可能还有部分要采集的数据,可以用“标签:
XXX”获取,该内容会自动传递到下一步的标签里,这里加过的标签不用出现在下一步中。
三、采集网址三、采集网址-测试网址采集测试网址采集如果点击了前面的“测试网址采集”按钮,显示如下图相关界面。
可以通过点击左侧的“+”看该网址下面的链接,可以用右侧的导出功能导出相关网址。
一般在左侧选择中要采集的网址,在右侧选择“导出同级节点”。
可以选择左侧网址,点击右侧“浏览网页”预览页面。
点击“测试该页”可以进入内容采集预览页。
如需退出点击“返回修改设置”按钮。
三、采集网址网址过滤三、采集网址网址过滤在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。
为了缩小采集范围可以使用“必须包含”功能。
三、采集内容三、采集内容正确获取网址后,点击“第二步:
采集内容规则”就可以进入采集内容模块了。
三、采集内容三、采集内容使用左侧的添加、修改、删除按钮修改标签对应的内容。
点击“”、“”箭头可以进行标签名称排序。
右侧“规则测试”区域可以在典型页面输入测试网址,也可以通过前面测试页面功能自动导入进相应页面地址。
点击右侧“测试”按钮,选择“第二步:
采集内容规则”后,出现如下界面。
三、采集内容分页获取三、采集内容分页获取以http:
/3项。
三、采集内容标签修改三、采集内容标签修改“标签名”右侧输入标签名字。
特殊情况下勾选右侧相应匹配项,该例子中用到的是第二项。
提取数据方式本例采用的是前后截取模式,分别在左右两个标红区域填入开始、结尾唯一标示字符串。
三、采集内容三、采集内容内容替换数据处理处可以点击“添加”新增处理模式,主要用到类型有“内容替换”、“HTML标签过滤”2种。
点击左侧添加,在“内容替换”区域左侧输入相应字符串,右侧“替换为”输入替换后的内容,本例替换为空,故没有内容。
添加完毕按“确定”按钮提交。
使用“删除”键可以删除选中的数据处理模式。
使用“”、“”箭头可以进行数据处理顺序排序。
三、采集内容文件下载选项配置三、采集内容文件下载选项配置少量时候会涉及图片或文件下载,这就需要勾选右下角相应配置:
免费版只需勾选“将相对地址补全为绝对地址”三、采集内容三、采集内容HTML标签过滤标签过滤“HTML标签过滤”可以替换掉您不想采集到的相应html代码,例如对方页面中关键词链接、iframe、文字标红等等,具体可以根据实际需要进行勾选。
一般我会选择“链接”、“字体”、“去除首位空白符”、“框架”4项。
三、采集内容正则提取三、采集内容正则提取提取数据方式除了“前后截取”以外,还有其他几种,常用只使用“正则提取”模式。
以下是正则提取样例,大家可以和“前后截取”例子看看之间有什么差别。
正则截取常用在复杂的内容提取上,由于内容复杂不容易懂,这里不再赘述。
三、采集内容正则提取三、采集内容正则提取除了“通过采集得到数据”模式以外,还可以使用“自定义固定格式的数据”,这里我们常用的是“固定的字符串”、“随机抽取信息”2种。
“固定的字符串”可以把标签固定写死成某个字符串。
“随机抽取信息”主要用于采集完文章后随机生成作者或发布人姓名一类。
四、内容发布存成文件格式四、内容发布存成文件格式进入第三步:
发布内容设置可以看到如下界面。
软件提供了3种导入数据方案,由于公司目前没有提供web网站,因此主要使用方式二和三。
下面截图中红色区域是数据存成文件模式的基本配置。
文件存成的格式免费版只能存成TXT、HTML、CSV3种模式,WORD、EXCEL需要付费。
TXT模板可以使用系统默认。
HTML系统自带模板没有写网页字符模式造成输出成乱码,请使用我提供的模板,使用中需要查看采集网站的字符格式,并更改系统配置以及HTML模板中字符格式。
CSV默认模板打开后是乱码,需要使用文本编辑器打开修改模板,第一行是字段名,第二行字段值,编辑好后另存为以utf-8编码保存。
如果要输出excel表格,可以用csv格式输出。
四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库点击“方式三”下方的“数据库发布配置管理”链接,看到如下界面:
四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库如是建立好的配置,双击左侧配置列表或点击下方编辑按钮即可。
如要新建入库配置,先点击左侧“新建”按钮,再点击右上方“新建”按钮。
在下一页里可以看到相应页面图。
四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库选择数据库类型为您使用的数据库种类,一般使用“Mysql”、“SQLServer”,具体根据您安装的数据库种类决定。
点击右侧的“INSERT语句示例”链接,可以看到上方自动插入了一些已经写好的数据库写入语句。
请根据已经建立好的数据库表结构修改“Table_Name”中字段,VALUES后标签则是“第二步:
采集内容规则”里的标签内容。
修改好后点“保存模块”,输入保存名称点“保存”,弹出“成功保存”窗口,点“确定”。
关闭“数据库模块编辑器”。
四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库插入的语句下方有3排内容,如下图。
主要用到“常用标签”和“系统标签”。
系统标签主要用到“采集页网址”,可以插入从哪个页面采集相应数据。
“文章编号:
表名XXX”用于插入数据后获取最后一条信息的ID号,这样可以利用该ID号执行新的select、update中包含该文章编号的“whereid=xxx”语句。
四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库以下是比较复杂的SQL插入语句例子。
INSERTINTOceshi(gongsimingcheng,lianxiren,shoujihaoma,dianhuahaoma,chengxintongnianfen,jingyingdizhi,zhuyinghangye,jingyingmoshi,zhuceziben,gongsichenglishijian,gongsizhucedi,qiyeleixing,fadingdaibiaoren,zhuyaoxiaoshouquyu,zhuyaokehuqunti,nianyingyee,fuwulingyu,yuangongrenshu,dangqianwangzhi,xingbie,chuanzhen,dizhi,youbian,gongsizhuye,gongsizhiwei,suozaidiqu,aliwangwang)VALUES(标签:
公司名称,标签:
联系人,标签:
联系电话,标签:
固定电话,标签:
诚信通年份,标签:
经营地址,标签:
主营行业,标签:
经营模式,标签:
注册资本,标签:
公司成立时间,标签:
公司注册地,标签:
企业类型,标签:
法定代表人,标签:
主要销售区域,标签:
主要客户群体,标签:
年营业额,标签:
服务领域,标签:
员工人数,标签:
当前网址,标签:
性别,标签:
传真,标签:
地址,标签:
邮编,标签:
公司主页,标签:
部门职位,标签:
所在地区,标签:
阿里旺旺)四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库以下MYSQL数据库对应建立数据库的大概语句例子,需要对数据库有一定了解。
可以用phpmyadmin或Navicat等图形数据库管理工具来处理。
CREATETABLEalibaba(gongsiidhaoint(10)NOTNULLAUTO_INCREMENT,gongsimingchengchar(255)NOTNULL,lianxirenchar(255)DEFAULT,shoujihaomachar(255)DEFAULT,dianhuahaomachar(255)DEFAULT,chengxintongnianfenchar(255)DEFAULT,jingyingdizhichar(255)DEFAULT,zhuyinghangyemediumtext,jingyingmoshichar(255)DEFAULT,zhucezibenchar(255)DEFAULT,gongsichenglishijianchar(255)DEFAULT,PRIMARYKEY(gongsiidhao),UNIQUEKEYgongsimingcheng(gongsimingcheng)USINGBTREE)ENGINE=MyISAMAUTO_INCREMENT=0DEFAULTCHARSET=gbk;四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库数据库结构可以用phpmyadmin或Navicat等图形数据库管理工具来处理。
四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库为了加快采集速度,可以修改“文件保存及部分高级设置”配置如下图。
四、内容发布导入到自定义数据库四、内容发布导入到自定义数据库配置完毕后,返回程序主界面,点中要采集的任务名称,勾选右侧要执行的任务,点击“开始”按钮就可以开始采集任务了。
到此主要配置工作已经完成。
五、其他功能重新采集其他数据五、其他功能重新采集其他数据有时需要重新采集数据,由于系统默认采集过的数据不再进行采集。
为了能重新采集相应数据,需要点击程序主界面要采集的任务,点击鼠标右键,分别选择“清空任务所有采集数据”、“清空该任务网址库”两项。
如果之前采集数据过多,这项工作可能会处理较长时间。
五、其他功能导出任务五、其他功能导出任务如果希望备份任务,可以在主菜单选中要导出的任务名称,按鼠标右键点击“导出任务”,选择要备份的位置点确定即可。
五、其他功能导入任务五、其他功能导入任务如果希望导入任务,可以在主菜单选中要导入的分组名称,按鼠标右键点击“导入任务至该分组”,浏览找到要导入的文件位置,文件后缀为“ljobx”或“ljob”,点确定导入即可。
ENDTHANKS!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 火车头 采集 初学者 入门教程
![提示](https://static.bingdoc.com/images/bang_tan.gif)