随笔分类 -  crawl

爬虫
摘要:PDF文档:Nutch大数据相关框架讲义.pdfNutch1.7二次开发培训讲义.pdfNutch1.7二次开发培训讲义之腾讯微博抓取分析Nutch公开课从搜索引擎到网络爬虫=============================================================Nu... 阅读全文
posted @ 2014-07-06 14:34 风与叶子 阅读(753) 评论(0) 推荐(0) 编辑
摘要:随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏... 阅读全文
posted @ 2014-06-27 14:30 风与叶子 阅读(184) 评论(0) 推荐(0) 编辑
摘要:世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证JavaArach... 阅读全文
posted @ 2014-06-27 14:26 风与叶子 阅读(603) 评论(0) 推荐(0) 编辑
摘要:互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库。在这样严峻的条件下,一批又一批的创业者从创业中获得成功,这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件,通过架构和低成本服务器也可以搭建千万级用户访问量的系统。新浪微博、淘宝网、腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台。所以,用什么没关系,只要能够在合理的情况下采用合理的解决方案。那怎么搭建一个好的系统架构呢?这个话题太大,这里主要说一下数据分流的方式。比如我们的数据库服务器只能存储200个数据,突然要搞一个活动预估达到600个数据 阅读全文
posted @ 2013-09-18 14:13 风与叶子 阅读(196) 评论(0) 推荐(0) 编辑
摘要:随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。基本的例子我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整个过程主要为 网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程。······ 阅读全文
posted @ 2013-09-18 14:11 风与叶子 阅读(284) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示