火车采集器(LocoySpider)是一款专业的功能强大的网络数据和信息挖掘的
网页采集器,通过灵活的配置,您可以很轻松的从网页上抓取文字、图片、文件等任何资源。
【基本介绍】
程序支持远程下载图片文件,支持网站登陆后的信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点。
火车采集器支持从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职
招聘网站等。
同时具有强大的网站登录采集、多页和分页的采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。
强大的php和c#插件支持,让您可以通过二次开发实现您所想要的任何更强大的功能。
【软件特点】
1、全自动
无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
2、本地编辑
本地可视化编辑已采集的数据。
3、采集测试
这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
4、管理方便
使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
5、支持所有网站编码
完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
6、多种发布方式
支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合
【基本功能】
1、规则自定义 - 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
2、多任务,多线程 - 可以同时进行多个信息采集任务,每个任务可以使用多个线程。
3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
4、数据保存 - 数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
5、断点续采 - 信息采集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
6、网站登录 - 支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
7、计划任务 - 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
8、采集范围限制 - 可以根据采集的深度和网址的标识来限制采集的范围。
9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换 - 可以将采集的结果根据规则替换成你定义的内容。
11、条件保存 - 可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别 - 运用此功能可以将用
JavaScript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
【新增功能】
无限级多页采集
任务队列运行管理功能
无限级分组任务管理,任务回收站功能
RSS地址采集功能
列表页分页采集获取功能
列表页附加参数获取功能
列表页及标签XPath可视化提取功能
标签纯正则替换功能
Http接口查看运行情况
导出记录为单个或多个Txt、html 文件
标签间自由组合功能
针对标签内容继续发送Http请求功能
无限级列表网址采集
从Http头信息中获取数据
标题内容正文提取功能
Aspx列表分页自识别
多网站站群式web发布
导出记录为Word格式
导出所有记录为Excel格式
使用随机二级代理服务器(支持Socket代理)
多扩展间数据交换功能
下载的图片自动加增强型水印功能
Ocr识别(图片转化为文字)
Http接口管理采集器运行
Mongodb数据库保存数据
主从服务器分布式采集
【术语介绍】
采集规则
采集规则分为站点规则和任务规则,通常是指任务规则。所谓采集规则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。
采集任务
采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导出的采集规则文件(.ljob后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljob文件。
发布模块
发布模块又称为发布规则,通常是指数据库发布模块或者WEB发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.jhc;WEB在线发布模块文件的后缀名为:.cwr。
(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)
发布接口
发布接口就是一个小的页面程序通常和WEB发布模块配合使用。WEB在线发布(使用WEB发布模块)是将采集的数据以POST方式发送到网站页面程序中由网站程序处理数据。而发布接口就是为了满足特定需求而写的一个网站的页面程序(如:PHP页面,ASP页面等)。然后采集器通过WEB在线发布将数据发送到这个接口文件由这个接口文件处理数据。接口文件通常放在服务器网站某个目录下。简单的说就是采集器将采集的数据发送到接口文件中,接口文件得到数据后去处理数据。使用发布接口用户可以更加灵活自由的处理采集器发送的数据。
插件
火车采集器里的插件分为PHP插件和.NET插件两种。标准版支持PHP插件,企业版支持PHP插件和.NET插件。插件可以让用户通过自己写PHP程序或者.NET程序放到采集器中对采集的数据进行处理。采集数据数据在四个地方可以使用插件,分别为:采网址时、采内容时、采多页时,保存时。
发布数据
发布数据就是将采集到的数据发布到指定的目的地,火车采集器支持四种发布方式。
方式一:Web在线发布到网站
这种发布方式类似于在网站后台手工添加数据一样。采集器将数据发送给网站后台程序,由网站后台程序去处理数据通常后台程序讲数据存入网站数据库中。
方式二:保存为本地文件
这种方式可以将采集的数据发布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。
方式三:导入到自定义数据库
这种方式可以通过采集器连接到其他数据库从而将采集的数据从软件内置数据库中导入到其他的数据库中,采集器支持连接Mysql、Access、Oracle、MSsql数据库。
方式四:保存为本地Sql文件(Insert语句)
这种方式是将采集的数据导出保存成Insert语句,可以用于在数据库的管理工具中执行插入数据。
本地编辑数据
采集器不仅可以采集发布数据,还可以将采集下来的数据经过编辑以后再发布。支持批量替换,通过SQL语句批量处理以及在文本编辑框里编辑。
【使用介绍】
从本网站下载安装,安装完成后打开,选择免费用户,密码可以自己随意输入:123456就可以。点击登录。
进入页面你会看到许多软件自带文件夹,不用管,或者删掉。点击新建右侧倒三角符号,选择新建分组。输入名称点保存即可。
下方会以文件夹出现你刚刚建立的分组名称。在文件夹上单击鼠标左键选中文件夹。
选中文件件后单击鼠标右键,选择新建任务。会出现如下对话框,随意输入任务名。
点击添加,会出现一个对话框,输入你要采集的网站或网站内某一个栏目的网址。点击右侧添加,下方会出现添加的网址,再点完成。
再点击下方的添加,在出的对话框里,会看到必须包含这一项,再把同样的网址输入进去点击保存。
刚刚我们完成的是第一步,选择第二步采集内容规则。如果只是简单的采集内容,可以直接在对话框中选择标题和内容,点击进入填写采集文章的源码。如果不懂源码,你可以随意打开一个网页,按键盘上的F12,下面就会出现页面的源码。
填写完之后点击确定即可,在右侧的典型页面你可以把要采集的网址输入进去,测试下是否采集到你想要采集的内容。
完成后,选择第三部发布内容,点击下方启用前面的选框,按步骤填写即可。
填完后选择保存,会返回初始页面,选中你刚刚输入的任务名,后面三个框要选中,点击鼠标右键开始任务即可,你想要的内容就会出现在你保存的文件夹内。
采集方法
进入火车头主程序页面。
单击新建的黑小三角,新建任务。
填写任务名,点击第二步。(采集网址不截了,以防广告)
分析目标页面,找到要采集的内容。
查看源文件,找到要采的内容(复制内容去搜索)
建议用360浏览器或者360极速浏览器,找到目标内容,分析目标内容前后的代码。
此时标题的前后代码为“
”、“
”。
双击采集器“标题”。
选择前后截取,把前后代码分别填进去,如图。
或者,选择正则提取,如图,点击确认。
标题采集规则制作完成,开始分析其他标签规则。
内容中有不要的代码(如图div代码不要),可以排除。
双击内容,进入数据处理,点击添加,出现菜单,选择html标签过滤。
勾选不要的代码。
检查要的内容是否全部采集进来了。
如何采集图片
首先我们打开软件,然后找到我们需要采集的任务,点击鼠标双击进入该任务的详细设置。
接下来我们在设置界面中选择第二步,采集内容规则。
在采集内容规则中,我们会看到一个名为内容的分类也就是正文,我们双击,这个内容。
此时,我们会看到,在标题编辑的页面中,有一个下载图片,刚下载图片进行打钩,接下来我们设置文件存放的目录,我们可以点击,存放目录右侧的一个感叹号,然后会弹出一个下拉框,我们选择命名格式即可。
图片默认保存在本地,那么图片的位置在哪里呢?我们打开软件,然后找到Data\LocoySpider\647文件夹
在这个文件夹内,你会看到当前所有下载的图片。
【常见问题】
1.在发布配置那里,无法刷新列表,总提示“格式不符”?
答:这个有很多原因,请依次确认下,一是否登陆成功, 请开启查看返回代码功能,比如说您刷新列表的页面只有登陆后才可以访问的话您必须先登陆网站才 可以,看一下是不是登陆的cookie正确否;二可能您选错了模块,不同的版本或是网站系统的 模块,一般是不通用的,请使用对应版本的模块;三可能是您的网站和默认模块刷新列表的页面里有不同的地方, 比如模块是用默认风格做的,您又换了另一个风格,请参照模开发相关手册部分进行修改,或者使用‘使用自定义分类参数’;四,您在选区项设置里选择了使用蜘蛛做模拟浏览功能,请改成本地浏览器浏览。
2.发内容--WEB发布错误,返回代码请查看,采集的内容重复发布,显示发布成功 未知?
答:出现类似这个错误:发内容--WEB发布错误,返回代码请查 看:File:///E:Documents and SettingsAdministrator桌面2008标准版Data1-admin5-seoWebError.log。 请一定要记得打开这个log文件。看里边返回什么代码。
如果返回代码为空,那可能就是发布的太快,您的服务器反应不过来,没有 返回任何字符。这时可能是发布成功了,也可能是发布失败了。具体请上网站查看。如何处理呢?请修改发布速度(问题3)。不要太短,主要以能发布成功为准。
3.Discuz中出现" 您的请求来路不正确或验证字串不符,无法提交"?
答:这个是discuz在发布时会发一个formhash, 这个值是在发布页面获取到的。出现此情况是获取到的formhash不正确引起的。请使用火车头内置浏览器登录并查看源码,查找"formhash=", 然后修改在线发布模块,将其值替换掉原发布模块里面的[登录随机值1](当然有可能是登录随机值X,与模块作者使用的有关)或是您自己修改模块使程序可以 正确获取到formhash.
4.发布到网站上,发现所有内容挤在一块,查看源代码,发现空格丢失了?
答:有两种可能:一是您做规则时过滤空格所致:另一个是您的系统会过滤,这时,请在“内容发布设置”里选中“数据发布时进行UrlEncode处理”。风讯就属于些 类。
5.图片发布时总是相对地址,不是远程地址?
答:请在标签编辑里选中“将相对地址补全为绝对地址”。默认您选了下载图片 后,就不需要选中这个选项了。
6.未找到任何可发布的内容.?
答:这个是程序在本地数据库里找不到未标记为未发的记录。这种情况是您将所有数据已发布过了,或是您在任务栏目里没有选 发内容 。
7.测试时或发布时出现 "出现同一帐号同时只能一个在线,或是您的帐号已被禁用"?
答:这个是网站系统不允许一个帐号同时在多个在线,比如帝国系统。这个情况下建议您使用专门的一个帐号用来采集发布。不要用它来登陆网站。
8.有些时候,明明已经正确获取web cookie,但是测试的时候仍然是没有登录呢?
答:这个一个是cookie 过期的问题,另一个可能是我们程序获取的不正确(很抱歉,程序目前还无法正确获取所有的cookie)。这种情况下,建议您使用专业的抓包软件,如 WSockExpert.用来抓取cookie,然后将抓取到的cookie填写到程序保存cookie的地方。
9.如何设置发表的速度?
答:请在“编辑任务”里"文件保存及高级设置里"设置采集及发布速度,时间单 位是毫秒。
10.采集地址重复,该怎么办?
答:程序会保存采集页的地址,默认是采过的是不再再去采集。如果你是需要重新采的话可以将原来的任务 地址库和本地已采数据全部删掉。如果您要采的网页里内容是不断变化的,你可以选不检测重复的选项
【更新日志】
v9.2
1.修复默认模板无法保存的问题
2.修复生成word文档时出错的Bug
3.修复最大采集量无效的bug
4.数据处理增加自动分类功能
5.添加python插件功能,支持2.7和3.x版本
6.更改任务批量编辑排除重复和网址库分开
7.修复任务批量设置中发布和入库为增加的bug
8.修复api中job的list方法不显示的bug
9.修复内置浏览器版本过低问题
10.修复任务完成进度条显示bug
11.修复浏览器Cookie不能随时生效bug
v8.4
1.修复高dpi下采集器登录界面错位的问题
2.修复中文分词存在的问题
3.修复任务完成后不能关机的问题
4.生成Word和Excel可选2007和2003格式
5.增加任务规则异常报警功能。
6.添加了批量关闭已完成任务窗口功能
7.修复文件下载中存在的一些问题
8.修复边采集发布为excel 无内容的bug
9.修复二级代理 Session中url的组合错误
10.升级插件内核心,增加伪原创等插件