2020 年 4月 13 日随笔档案 - 风hua

2020年4月13日

摘要：爬虫文件剖析： # -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #应用名称 #允许爬取的域名（如果遇到非该域名的url则爬取不到数据） allowed_domains = 阅读全文

posted @ 2020-04-13 19:37 风hua 阅读(219) 评论(0) 推荐(0) 编辑

iframe与动作连处理

摘要： from selenium import webdriverfrom time import sleep#导入动作链对应的类from selenium.webdriver import ActionChainsbro = webdriver.Chrome(executable_path='./chr 阅读全文

posted @ 2020-04-13 18:03 风hua 阅读(240) 评论(0) 推荐(0) 编辑

selenium其他自动化操作

摘要： from selenium import webdriver from time import sleep bro = webdriver.Firefox() bro.get('https://www.taobao.com/') # page_text = bro.page_source() # 实阅读全文

posted @ 2020-04-13 18:01 风hua 阅读(137) 评论(0) 推荐(0) 编辑

使用seleniun模拟登陆qq空间

摘要： from selenium import webdriver from lxml import etree from time import sleep # 实例化一个浏览器对象（传入浏览器的驱动程序） bro = webdriver.Firefox() # 让浏览器发起一个指定url对应请求 br 阅读全文

posted @ 2020-04-13 18:00 风hua 阅读(171) 评论(0) 推荐(0) 编辑

selenium基本使用

摘要： from selenium import webdriverfrom lxml import etreefrom time import sleep# 实例化一个浏览器对象（传入浏览器的驱动程序）bro = webdriver.Firefox()# 让浏览器发起一个指定url对应请求bro.get( 阅读全文

posted @ 2020-04-13 17:58 风hua 阅读(196) 评论(0) 推荐(0) 编辑

验证码识别云打码之古诗文网验证识别

摘要： import requests from lxml import etree from codeclass import YDMHttp # 封装识别验证码图片下的函数 def getcodetext(imgpath,codetype): # 普通用户名 username = 'bobo32841 阅读全文

posted @ 2020-04-13 17:17 风hua 阅读(374) 评论(0) 推荐(0) 编辑

图片爬取基础

摘要： import requests # 需求：爬取糗事百科中糗图板块板块下的所有糗图图片 if __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.3 阅读全文

posted @ 2020-04-13 17:07 风hua 阅读(142) 评论(0) 推荐(0) 编辑

xpath 实战之全国城市名字爬取

摘要： import requests from lxml import etree if __name__ == "__main__": # 获取整张源码数据 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKi 阅读全文

posted @ 2020-04-13 17:05 风hua 阅读(257) 评论(0) 推荐(0) 编辑

xpath之图片数据解析与爬取

摘要： # 需求：图片数据解析http://pic.netbian.com/4kmeinv/import requestsimport osfrom lxml import etreeif __name__ == "__main__": # 爬取页面源码数据 headers = { 'User-Agent 阅读全文

posted @ 2020-04-13 17:03 风hua 阅读(2685) 评论(0) 推荐(0) 编辑

xpath之28二手房数据爬取

摘要： # 需求：爬取58二手房房源信息 from lxml import etree import requests if __name__ == "__main__": # 爬取页面源码数据 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; 阅读全文

posted @ 2020-04-13 17:02 风hua 阅读(193) 评论(0) 推荐(0) 编辑

xpath解析基础

摘要： import requests from lxml import etree if __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (K 阅读全文

posted @ 2020-04-13 16:59 风hua 阅读(132) 评论(0) 推荐(0) 编辑

re实战之糗图图片分页爬取2

摘要： import requests import re import os if __name__ == "__main__": # 创建一个文件夹用来保存所有图片 if not os.path.exists('./qiutulibs'): os.mkdir('./qiutulibs') headers 阅读全文

posted @ 2020-04-13 16:58 风hua 阅读(175) 评论(0) 推荐(0) 编辑

re实战之糗图图片爬取及解析

posted @ 2020-04-13 16:54 风hua 阅读(227) 评论(0) 推荐(0) 编辑

bs4实战之三国演义数据爬取

摘要： # 需求：爬取三国演义小说中的章节标题与章节内容http://www.shicimingju.com/book/sanguoyanyi.htmlimport requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": # 对首页数据阅读全文

posted @ 2020-04-13 16:50 风hua 阅读(438) 评论(0) 推荐(0) 编辑

bs4数据解析基础

摘要： import requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/ 阅读全文

posted @ 2020-04-13 16:47 风hua 阅读(263) 评论(0) 推荐(0) 编辑

requests基础爬取流程

摘要： # 需求：爬取搜狗首页的页面数据import requestsif __name__ == '__main__': # 1指定url url = 'https://www.sogou.com/' # 2发起请求 res = requests.get(url=url) # get方法会返回一个响应对象阅读全文

posted @ 2020-04-13 16:33 风hua 阅读(375) 评论(0) 推荐(0) 编辑

requests 之豆瓣电影排行榜爬取

摘要： import json import requests if __name__ == '__main__': url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:9 阅读全文

posted @ 2020-04-13 16:30 风hua 阅读(246) 评论(0) 推荐(0) 编辑

requests之肯德基座位爬取

摘要： import requestsimport jsonif __name__ =='__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gec 阅读全文

posted @ 2020-04-13 16:29 风hua 阅读(286) 评论(0) 推荐(0) 编辑

requests之网页采集器

摘要： # UA:User-Agent(请求载体的身份标识） # UA 检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一浏览器 #说明该请求是一个正常的请求。否则为不正常的请求（爬虫），则服务器有可能拒绝 # UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器阅读全文

posted @ 2020-04-13 16:27 风hua 阅读(161) 评论(0) 推荐(0) 编辑

requests实战之破解百度翻译

摘要： import json import requests if __name__ == '__main__': post_url = 'https://fanyi.baidu.com/sug' # 进行UA伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windo 阅读全文

posted @ 2020-04-13 16:25 风hua 阅读(343) 评论(0) 推荐(0) 编辑

公告