摘要: ***************************************************************************************模型--蹲坑(Semaphore)********************************************** 阅读全文
posted @ 2018-12-29 10:17 陈文鑫 阅读(135) 评论(0) 推荐(0) 编辑
摘要: import requests,re class Spider: def take_html(self,url): r = requests.get(url) r.encoding = r.apparent_encoding return r.text def take_info(self,url, 阅读全文
posted @ 2018-12-29 10:03 陈文鑫 阅读(177) 评论(0) 推荐(0) 编辑
摘要: '''在爬取某些网站时有js加载的信息时,主要是js拼接的操作,可以通过selenium来进行拼接,可以节省大量的破解JS还原操作的时间,大大节省成本; 安装selenium: pip install Selenium 安装chromedriver: 查看当前浏览器版本 输入chrome://hel 阅读全文
posted @ 2018-12-29 09:57 陈文鑫 阅读(1308) 评论(0) 推荐(1) 编辑
摘要: import requests,re,os,globfrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timeclass Comic: headers = {'User-Agent' 阅读全文
posted @ 2018-12-29 09:48 陈文鑫 阅读(1266) 评论(0) 推荐(0) 编辑
摘要: web开发(网络爬虫 -- 免费代理清洗 ********************************************************************************************************************************* 阅读全文
posted @ 2018-12-29 08:50 陈文鑫 阅读(287) 评论(1) 推荐(0) 编辑