随笔分类 -  爬虫

摘要:一、scrapy拉起方式 1. 简单cmd拉起 from scrapy.cmdline import execute spiders = [ 'scrapy crawl liepin', 'scrapy crawl lagou' ] if __name__ == '__main__': for i 阅读全文
posted @ 2018-08-31 08:24 方山客 阅读(1464) 评论(1) 推荐(1) 编辑
摘要:1. 爬虫的分类:分布式和单机 分布式主要就是apache的nutch框架,java实现,依赖hadoop运行,学习难度高,一般只用来做搜索引擎开发。 java单机的框架有:webmagic和webcollector以及crawler4j python单机的框架:scrapy和pyspider 2. 阅读全文
posted @ 2018-07-14 12:03 方山客 阅读(278) 评论(0) 推荐(0) 编辑
摘要:1.HTMLParser一般这么用: 2.BeautifulSoup一般这样: 3.HTMLParser遇到div嵌套,handle_endtag里关闭div开关会提前关闭,试了很久目前没想出解决方案。 3.BeautifulSoup的find('div', class_='test')是find_ 阅读全文
posted @ 2018-06-15 22:32 方山客 阅读(6907) 评论(0) 推荐(0) 编辑
摘要:本来是根据scrapy教程写了一个下载图片的简易爬虫,但是搞了一天,死活下载不了图片。 然后换了一个网站,用原生的库写了一个图片爬虫。 import urllib.requestimport osdef crawl(): for i in range(2000,2100): for j in ran 阅读全文
posted @ 2017-08-08 00:36 方山客 阅读(144) 评论(0) 推荐(0) 编辑
摘要:方法一: import urlib.request url = "" headers=("User-Agent","") opener = urllib.request.build_opener() opener.addheaders = [headers] data=open(url).read( 阅读全文
posted @ 2017-07-16 06:07 方山客 阅读(193) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示