2014 年 9月 22 日随笔档案 - 毕力格次

2014年9月22日

摘要：最近在做项目的时候有一个需求：从网页面抓取数据，要求是首先抓取整个网页的html源码（后期更新要使用到）。刚开始一看这个简单，然后就稀里哗啦的敲起了代码（在这之前使用过Hadoop平台的分布式爬虫框架Nutch，使用起来是很方便，但是最后因为速度的原因放弃了，但生成的统计信息在后来的抓取中使用到... 阅读全文

posted @ 2014-09-22 00:14 毕力格次阅读(6890) 评论(7) 推荐(0) 编辑

毕力格次

公告