摘要: 1. 爬虫的分类:分布式和单机 分布式主要就是apache的nutch框架,java实现,依赖hadoop运行,学习难度高,一般只用来做搜索引擎开发。 java单机的框架有:webmagic和webcollector以及crawler4j python单机的框架:scrapy和pyspider 2. 阅读全文
posted @ 2018-07-14 12:03 方山客 阅读(270) 评论(0) 推荐(0) 编辑