摘要: 爬虫文件剖析: # -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #应用名称 #允许爬取的域名(如果遇到非该域名的url则爬取不到数据) allowed_domains = 阅读全文
posted @ 2020-04-13 19:37 风hua 阅读(219) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriverfrom time import sleep#导入动作链对应的类from selenium.webdriver import ActionChainsbro = webdriver.Chrome(executable_path='./chr 阅读全文
posted @ 2020-04-13 18:03 风hua 阅读(240) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from time import sleep bro = webdriver.Firefox() bro.get('https://www.taobao.com/') # page_text = bro.page_source() # 实 阅读全文
posted @ 2020-04-13 18:01 风hua 阅读(137) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from lxml import etree from time import sleep # 实例化一个浏览器对象(传入浏览器的驱动程序) bro = webdriver.Firefox() # 让浏览器发起一个指定url对应请求 br 阅读全文
posted @ 2020-04-13 18:00 风hua 阅读(171) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriverfrom lxml import etreefrom time import sleep# 实例化一个浏览器对象(传入浏览器的驱动程序)bro = webdriver.Firefox()# 让浏览器发起一个指定url对应请求bro.get( 阅读全文
posted @ 2020-04-13 17:58 风hua 阅读(196) 评论(0) 推荐(0) 编辑
摘要: import requests from lxml import etree from codeclass import YDMHttp # 封装识别验证码图片下的函数 def getcodetext(imgpath,codetype): # 普通 用户名 username = 'bobo32841 阅读全文
posted @ 2020-04-13 17:17 风hua 阅读(374) 评论(0) 推荐(0) 编辑
摘要: import requests # 需求:爬取糗事百科中糗图板块板块下的所有糗图图片 if __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.3 阅读全文
posted @ 2020-04-13 17:07 风hua 阅读(142) 评论(0) 推荐(0) 编辑
摘要: import requests from lxml import etree if __name__ == "__main__": # 获取整张源码数据 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKi 阅读全文
posted @ 2020-04-13 17:05 风hua 阅读(257) 评论(0) 推荐(0) 编辑
摘要: # 需求 :图片数据解析http://pic.netbian.com/4kmeinv/import requestsimport osfrom lxml import etreeif __name__ == "__main__": # 爬取页面源码数据 headers = { 'User-Agent 阅读全文
posted @ 2020-04-13 17:03 风hua 阅读(2685) 评论(0) 推荐(0) 编辑
摘要: # 需求: 爬取58二手房房源信息 from lxml import etree import requests if __name__ == "__main__": # 爬取页面源码数据 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; 阅读全文
posted @ 2020-04-13 17:02 风hua 阅读(193) 评论(0) 推荐(0) 编辑
摘要: import requests from lxml import etree if __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (K 阅读全文
posted @ 2020-04-13 16:59 风hua 阅读(132) 评论(0) 推荐(0) 编辑
摘要: import requests import re import os if __name__ == "__main__": # 创建一个文件夹用来保存所有图片 if not os.path.exists('./qiutulibs'): os.mkdir('./qiutulibs') headers 阅读全文
posted @ 2020-04-13 16:58 风hua 阅读(175) 评论(0) 推荐(0) 编辑
摘要: import requests import re import os if __name__ == "__main__": # 创建一个文件夹用来保存所有图片 if not os.path.exists('./qiutulibs'): os.mkdir('./qiutulibs') headers 阅读全文
posted @ 2020-04-13 16:54 风hua 阅读(227) 评论(0) 推荐(0) 编辑
摘要: # 需求:爬取三国演义小说中的章节标题与章节内容http://www.shicimingju.com/book/sanguoyanyi.htmlimport requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": # 对首页数据 阅读全文
posted @ 2020-04-13 16:50 风hua 阅读(438) 评论(0) 推荐(0) 编辑
摘要: import requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/ 阅读全文
posted @ 2020-04-13 16:47 风hua 阅读(263) 评论(0) 推荐(0) 编辑
摘要: # 需求:爬取搜狗首页的页面数据import requestsif __name__ == '__main__': # 1指定url url = 'https://www.sogou.com/' # 2发起请求 res = requests.get(url=url) # get方法会返回一个响应对象 阅读全文
posted @ 2020-04-13 16:33 风hua 阅读(375) 评论(0) 推荐(0) 编辑
摘要: import json import requests if __name__ == '__main__': url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:9 阅读全文
posted @ 2020-04-13 16:30 风hua 阅读(246) 评论(0) 推荐(0) 编辑
摘要: import requestsimport jsonif __name__ =='__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gec 阅读全文
posted @ 2020-04-13 16:29 风hua 阅读(286) 评论(0) 推荐(0) 编辑
摘要: # UA:User-Agent(请求载体的身份标识) # UA 检测: 门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一浏览器 #说明该请求是一个正常的请求。否则为不正常的请求(爬虫),则服务器有可能拒绝 # UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 阅读全文
posted @ 2020-04-13 16:27 风hua 阅读(161) 评论(0) 推荐(0) 编辑
摘要: import json import requests if __name__ == '__main__': post_url = 'https://fanyi.baidu.com/sug' # 进行UA伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windo 阅读全文
posted @ 2020-04-13 16:25 风hua 阅读(343) 评论(0) 推荐(0) 编辑