随笔分类 - WEB信息采集
摘要:1.首先学习采集器的基本使用方法 可参考以下几篇文章: 网站采集器MetaSeeker v4.x速成手册:http://www.goo seeker.com/cn/node/document/metaseeker/cookbookv4/bookfront.html 案例:如何规划网站数据采集: http://www.goo seeker.com/cn/node/Fulelr/2009120501 ...
阅读全文
摘要:开源网络爬虫很多,上Sourceforge一搜就会有很多,但很少有C#的。今天推荐两个c#开发的网络爬虫http://www.codeproject.com/KB/IP/Crawler.aspx老外写的,http通讯采用了socket,效果不错,不过没有处理中文,中文下载会出现乱码,在socket接受部分做一下处理就可以了。这个程序比较 完整,一个基本爬虫所具备的功能都有了,是一个不错的例子。VS2003,.net 1.1 其中有些写法已经过时,需要调整。http://www.jeffheaton.com/source还是一个老外写的,csspider.zip。没有仔细研究,遵循LGPL协议,
阅读全文
摘要:互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内 容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入 口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。 要设计一个爬虫,首先需要考虑的效率。对于网...
阅读全文
摘要:如果要求网页抓取和内容格式化工具软件DataScraper进行周期性网页抓取和信息提取,那么需要为DataScraper配置周期性网页抓取调度文件,这是一个XML文件,存放在主目录($HOME)下的目录.datascraper中,文件名字是crontab.xml。DataScraper运行的时候如果发现这个文件,将解析出周期性调度参数,如果设置了auto参数,将自动启动多个DataScraper进...
阅读全文
摘要:本文推荐一篇文章,关于新闻调查公司ProPublica怎样DIY网站信息采集方案。这篇文章是Scraping for Journalism: A Guide for Collecting Data,详细讲解了ProPublica使用哪些开源和免费软件DIY网站信息采集方案,怎样为新闻调查任务采集信息,怎样解决网站采集的难题。 这个案例的采集目标:从美国7家制药公司的网站上采集受赞助医生的姓名和赞...
阅读全文