【自动化】火车头采集器

火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等有关采集器。对于数据的采集其可以分为两部分,一是采集数据,二是发布数据。

 

火车采集器(LocoySpider)是一款功能强大的网页内容采集软件.它可以从网络上抓取文字,图片,flash,视频及其它网络资源.同时,软件具有强大的信息发布功能,可以将采集的数据模仿浏览器发布到网站或是直接导入Access、MySql、MS SqlServer数据库,还可以保存为本地文件,方便浏览使用.
火车采集器可以广泛的应用于各种网站,数据系统或是用于资料收集之用.使用它我们可以获取最新的新闻并发布新闻到自己的网络系统,或者用来收集信息,为决策提供相关资料,也可以将它作为一个批量下载工具,用来获取自己需要的信息,还可以作为网站开发者测试工具,用来提交测试数据.更多应用可以在实际中灵活运用.
作为网络上主流采集器之一,与同类产品相比,火车采集器拥有以下特点:多任务,多线程,多标签,多页面采集,多种SEO功能, 多种发布方式,多种数据库入库支持,支持接口插件等应用扩展,对于采集的数据可以本地可视化编辑,下载功能强大,支持各种网络服务器数据采集,可视化测试,支持网页压缩采集,可以发布数据时上传文件,自动采集更新功能,良好的用户体验.下边分别就每项功能做一下具体说明

功能介绍
1. 多任务
火车采集器中的任务是一个完整的采集过程.包括采集网址,采集内容,发布内容三项.可以同时进行三项工作,也可以分批次,分过程进行采集.多任务就是程序可以同时运行多个任务,只要用户的电脑配置足够好,就可以运行足够多的任务来抓取数据.多个任务之间互不干扰,可以分别进行停止,暂停,查看采集数据等操作.
2. 多线程
多个线程的使用使程序运行时效率可以得到提升,抓取及发布速度加快,对于抓取大量数据非常用效.同时又不会影响其它任务的运行.
3. 多标签
程序在抓取数据时,可以对抓取的数据进行标记,这个就是标签的功能.我们可以标明抓取的数据是标题还是内容或是作者.而标签的数量是不限制的,这样,程序就可以抓取到更为复杂的数据并很方便的时行处理.
4. 多页面采集
有时一条信息的数据存在于多个页面上,我们软件针对这一问题开发了多页采集功能.程序可以从采集页网址里获得与其有相关性的网页并抓取其内容,然后保存在一条记录中.
5. 循环采集
程序可以在一个页面或多个面页进行循环采集,可以抓取源码样式一样的数据.这对于类似论坛这样的网站可以将所有数据抓取下来.同时软件可以将抓取的循环记录做为新记录保存.
6. 多种seo功能
一些站长或编辑用户需要对网页内容做seo优化.这时,可以使用程序的提取关键字功能.
程序从关键词词库里,按词频,词性对内容进行分词并提取出内容的关键字.可以对多个标签进行提取.
7. 多种发布方式
数据抓取下来后,我们可以通过多种方式来处理数据.web在线发布功能是我们功能最受欢迎的一种发布方式,它不用用户修改自己的网站,程序模仿的是浏览器提交数据的过程.利用此功能,可以很方便的将数据发布到自己的网站系统而不用考虑用户的网站是建立在什么系统或使用什么程序.数据库入库方式是程序通过接口执行sql语句,将采集下来的数据直接发送到数据库的一种方式.它的特点是高效.程序支持ACCESS,MSSQL,MYSQL三种数据库的直接入库操作.同时,软件也可以将数据保存为本地文本文件,如html网页,sql语句.
8. 插件接口
软件在不断增加功能的同时,考虑到用户不同的需求,所以让参与程序开发,扩展程序功能.目前程序提供了php文件处理接口和.net插件处理程序.php文件处理接口可以对采集后的数据进行二次处理..net编程接口可以在下载网页后,程序处理前对网页内容进行处理.通过对采集前和采集后的两次处理,基本可以满足大部分用户对数据采集的需求.
9. 本地数据可视化编辑
对于抓取到本地的数据,我们可以做一些编辑后再发布,这对于一些网站编辑用户特别有用.可以省却再去网站上修改的麻烦.本地编辑支持源码,可视编辑及预览三种视图方式.数据处理中可以使用sql语句对内容进行批量处理,也可以使用词库对一些敏感词进行批量替换.
10. 文件下载功能
程序一大特点是可以下载网页上的图片,flash及其它的附件形式的文件.可以突破一般的简单的防盗链系统.可以自动识别下载文件类型,对于一些未知格式也可以正常下载.对于大一些的文件,可以使用分段下载.对于支持断点续传的文件支持断点续传.
11. 支持多种服务器
网络上网站服务器多种多种,一些在http协议上也稍有不同.程序对这方面做了特殊处理,可以采集基本所有的服务器数据.同时软件具有自动识别网页编码的功能,对于那些因服务器差异不发送网页编码的数据也能很好的支持.在http协议方面,程序可以自定义http头,实现各种服务器数据的顺利抓取.
12. 网页数据压缩技术
为了节省带宽,大多数服务器是支持网页压缩的.目前主要的压缩方式为gzip和deflate两种.程序可以下载经压缩后的网页,然后进行解压还原并处理.这个功能的使用相比直接下载要减少带宽很多,下载速度可以提高3-10倍.
13. 自动上传文件到网站
在论坛发帖时我们可以直接将附件上传上去.程序也实现了这个功能.可以在发送数据的同时将本地文件上传到服务器上.这对于做论坛或是图片的用户来说非常有用.可以减少使用ftp或是加强防盗链功能.
14. 自动采集更新功能
程序支持无人值守的工作.用户可以设定程序在指定的时间里去运行某个任务,去完成抓取任务.这样可以减少人工采集的强度.配合网站的一些功能,可以实现无人值守的网站更新.
15. 可视化测试功能
程序的这个功能在采集软件里是非常有强大的.用户可以在编写一部分规则后测试采集效果.程序可以完成数据抓取,文件下载等所有的功能.规则制作的正确与否,可以直接看出来.对于提高测试规则的效率非常明显.
16. 良好的用户体验
程序在方便用户使用上做了非常多的改进.可以批量导出导入任务.智能导入任务规则.任务运行区不同运行状态以不同颜色标记.标签编辑框可以随内容长度改变大小.规则模块里的关键部分高亮显示.

程序分析 上边是程序总的功能说明,下边我们对程序的各个可执行文件及其功能做一个简介.

1. 火车采集器主程序 LocoySpider.exe
程序的主要操作都在这里进行.它包括了任务的制作,任务的运行,数据的编辑,自动运行的设置等功能与一身,离开了它,软件就无法正常工作.
2. 获取源代码,http模拟提交工具 LocoyPostGet.exe
这个工具是一个数据提交工具.可以使用它来向服务器提交一些数据,然后查看返回的信息.可以在提交数据时设置发送数据的来源,浏览器,具体数据等信息.然后可以查看返回的信息.可以查看服务器的一些设置,如服务器软件,服务器时间,服务器上网站程序发送回来的其它信息等.
3. WEB在线发布模块工具 LocoyModule.exe
这个工具是来设置如何向服务器发送数据的.可以定义发送数据的页面地址,发送页面的来源页面地址,发送的数据包格式.同时可以定义如何获得栏目id信息及获取一些发布数据时需要的一些随机参数.
4. WEB在线发布配置工具 LocoyWebCMS.exe
Web在线发布模块一般是通用型的发布方式.如果需要针对某个具体的网站发布数据,则需要通过WEB在线发布配置工具来定义具体的发布方法.在发布配置工具里可以配置发布网站的编码,网址地址,发布的栏目以及测试发布的效果.
5. 数据库模块编辑器 LocoyDatabaseModule.exe
数据库模块编辑器可以执行SQL语句,将数据直接插入数据表中,对于一些表结构简单的系统来说,直接入库是高效有效的发布方式.
6. php外部编程接口测试 LocoyInterface.exe
可以直接编码php代码并测试数据处理效果.
7. 数据库入库管理程序 LocoyDatabase.exe
可以设定入库时的数据库信息.如数据库名,密码,编码等信息.然后测试入库效果.

编辑本段|回到顶部使用人群 1. 网站采编人员
打破传统的采编人员必须手工转载文章的现状,使他们更有时间去做数据的编辑加工,工作更有成效.程序可以完美结合TRS等采编系统,大型网站的信息采集将更加容易有效.
2. 内部网络
打破内网信息单一,获取困难的神话,内部网络也可以体验丰富多彩的互联网信息.可以解决形如军队等与因特网隔离的重要部门对于因特网的信息需求问题 .
3. 政府机关
实时跟踪、采集与政府工作相关的国内外及地方新闻,政策法规,经济,产业等信息,解决政府主网站对各地级子网站的信息采集与整合问题.
4. 企业应用
实时而准确地采集国内外新闻,行业新闻,技术文章.可以很容易的进行数据整合,情报处理更快捷高效,大大减少业务成本.
5. SEO人员或站长
数据的获得更.加容易,可迅速增加网站信息量,可以将更多精力放在优化和推广上

 

posted @ 2018-09-05 10:14  猪猪宝丫  阅读(1196)  评论(0编辑  收藏  举报