WEB信息采集 - 随笔分类 - 大CC

DataScraper数据抓取快速入门

摘要：1.首先学习采集器的基本使用方法可参考以下几篇文章：网站采集器MetaSeeker v4.x速成手册：http://www.goo seeker.com/cn/node/document/metaseeker/cookbookv4/bookfront.html 案例：如何规划网站数据采集： http://www.goo seeker.com/cn/node/Fulelr/2009120501 ... 阅读全文

posted @ 2011-04-09 23:56 大CC 阅读(1864) 评论(0) 推荐(0)

介绍两个C#开源网络爬虫

摘要：开源网络爬虫很多，上Sourceforge一搜就会有很多，但很少有C#的。今天推荐两个c#开发的网络爬虫http://www.codeproject.com/KB/IP/Crawler.aspx老外写的，http通讯采用了socket，效果不错，不过没有处理中文，中文下载会出现乱码，在socket接受部分做一下处理就可以了。这个程序比较完整，一个基本爬虫所具备的功能都有了，是一个不错的例子。VS2003，.net 1.1 其中有些写法已经过时，需要调整。http://www.jeffheaton.com/source还是一个老外写的，csspider.zip。没有仔细研究，遵循LGPL协议，阅读全文

posted @ 2011-03-29 17:18 大CC 阅读(11942) 评论(3) 推荐(4)

larbin结构分析

摘要：互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景，尤其是类似RSS的以XML为基础的结构化的数据越来越多，内容的组织方式越来越灵活，检索组织并呈现会有着越来越广泛的应用范围，同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫，信息的来源入口。一个高效，灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。要设计一个爬虫，首先需要考虑的效率。对于网... 阅读全文

posted @ 2011-03-29 15:31 大CC 阅读(449) 评论(0) 推荐(0)

周期性网页抓取调度文件

摘要：如果要求网页抓取和内容格式化工具软件DataScraper进行周期性网页抓取和信息提取，那么需要为DataScraper配置周期性网页抓取调度文件，这是一个XML文件，存放在主目录（$HOME）下的目录.datascraper中，文件名字是crontab.xml。DataScraper运行的时候如果发现这个文件，将解析出周期性调度参数，如果设置了auto参数，将自动启动多个DataScraper进... 阅读全文

posted @ 2011-01-16 22:59 大CC 阅读(1234) 评论(0) 推荐(1)

完整的WEB站点信息采集方案

摘要：本文推荐一篇文章，关于新闻调查公司ProPublica怎样DIY网站信息采集方案。这篇文章是Scraping for Journalism: A Guide for Collecting Data，详细讲解了ProPublica使用哪些开源和免费软件DIY网站信息采集方案，怎样为新闻调查任务采集信息，怎样解决网站采集的难题。这个案例的采集目标：从美国7家制药公司的网站上采集受赞助医生的姓名和赞... 阅读全文

posted @ 2011-01-14 10:28 大CC 阅读(2664) 评论(1) 推荐(1)

大CC

关注 Nosql/Docker/阅读分享

随笔分类 - WEB信息采集