随笔分类 - 爬虫

pyinstaller，scrapy和apscheduler

摘要：一、scrapy拉起方式 1. 简单cmd拉起 from scrapy.cmdline import execute spiders = [ 'scrapy crawl liepin', 'scrapy crawl lagou' ] if __name__ == '__main__': for i 阅读全文

posted @ 2018-08-31 08:24 方山客阅读(1464) 评论(1) 推荐(1) 编辑

初识webmagic

摘要：1. 爬虫的分类：分布式和单机分布式主要就是apache的nutch框架，java实现，依赖hadoop运行，学习难度高，一般只用来做搜索引擎开发。 java单机的框架有：webmagic和webcollector以及crawler4j python单机的框架：scrapy和pyspider 2. 阅读全文

posted @ 2018-07-14 12:03 方山客阅读(278) 评论(0) 推荐(0) 编辑

HTMLParser和BeautifulSoup使用入门和总结

摘要：1.HTMLParser一般这么用： 2.BeautifulSoup一般这样： 3.HTMLParser遇到div嵌套，handle_endtag里关闭div开关会提前关闭，试了很久目前没想出解决方案。 3.BeautifulSoup的find('div', class_='test')是find_ 阅读全文

posted @ 2018-06-15 22:32 方山客阅读(6907) 评论(0) 推荐(0) 编辑

我的图片爬虫demo

摘要：本来是根据scrapy教程写了一个下载图片的简易爬虫，但是搞了一天，死活下载不了图片。然后换了一个网站，用原生的库写了一个图片爬虫。 import urllib.requestimport osdef crawl(): for i in range(2000,2100): for j in ran 阅读全文

posted @ 2017-08-08 00:36 方山客阅读(144) 评论(0) 推荐(0) 编辑

两种方法修改pyhton爬虫的报头

摘要：方法一： import urlib.request url = "" headers=("User-Agent","") opener = urllib.request.build_opener() opener.addheaders = [headers] data=open(url).read( 阅读全文

posted @ 2017-07-16 06:07 方山客阅读(193) 评论(0) 推荐(0) 编辑