爬虫 - 随笔分类 - QV

摘要：xx 阅读全文

posted @ 2022-05-14 16:07 QV 阅读(55) 评论(0) 推荐(0)

摘要：crawlspider和spider的区别 crawlspider创建爬虫文件的命令: scrapy genspider 爬虫文件名-t crawl www.xxx.com spider创建爬虫文件的命令: scrapy genspider 爬虫文件名 www.xxx.com crawlspider 阅读全文

posted @ 2022-05-14 15:46 QV 阅读(58) 评论(0) 推荐(0)

爬虫--scrapy的下载中间件

摘要：scrapy的下载中间件的作用：批量拦截整个工程中发起的所有请求和响应拦截请求： UA伪装：代理ip：拦截响应：拦截异常 #批量拦截所有的请求和响应 class MiddlewearproDownloaderMiddleware(object): #UA池 user_agent_list = 阅读全文

posted @ 2022-05-11 01:34 QV 阅读(51) 评论(0) 推荐(0)

爬虫--scrapy的请求传参,POST请求和cookie问题

摘要：1.scrapy的请求传参使用场景：如果使用scrapy爬取的数据没有在同一张页面中，则必须使用请求传参使用方法:yield scrapy.Request(url,callback,meta) :callback回调一个函数用于数据解析 :meta用来传递数据爬虫文件操作: 1.导包 from 阅读全文

posted @ 2022-05-10 22:54 QV 阅读(381) 评论(0) 推荐(0)

爬虫--Scrapy框架的初步使用

摘要：1.scrapy在windows环境下安装 - 环境的安装： a. pip3 install wheel b. 下载twisted: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录，执行 pip3 install Twiste 阅读全文

posted @ 2022-05-09 18:36 QV 阅读(64) 评论(0) 推荐(0)

爬虫--数据解析

摘要：数据解析的目的是获取局部的数据数据解析的方法有正则,xpath,bs4 正则:https://www.cnblogs.com/l1222514/p/11011009.html 正则解析: import re #正则获取定位可以获取括号里面的内容 ex='xxxxx(.*?)xxxx' re.fi 阅读全文

posted @ 2022-05-08 15:55 QV 阅读(63) 评论(0) 推荐(0)

爬虫--requests模块

摘要：requests模块的get操作 1.导包 import requests 2.get操作的三个参数 requests.get(url,params,headers) url params :get请求携带的参数 heraders:UA伪装 url = 'https://www.sogou.com/ 阅读全文

posted @ 2022-05-08 15:21 QV 阅读(58) 评论(0) 推荐(0)

scrapy框架第二天

摘要：1.scrapy数据分析 2.scrapy持久化存储 3.全站数据爬取 4.请求传参 + 五大核心组件 - scrapy的数据解析 - 在scrapy中使用xpath解析标签中的文本内容或者标签属性的话,最终获取的是一个Selector的对象,且我们需要的字符串数据全部被封装在了该对象中 - 如果可阅读全文

posted @ 2019-06-25 22:03 QV 阅读(206) 评论(0) 推荐(0)

模拟登陆12306

摘要：1.封装在线打码平台--超级鹰 2. 3.对12306进行模拟登录:验证码图片必须通过裁剪图片的形式获取 3.1.浏览器实例化 bro = webdriver.Chrome(executable_path='./chromedriver.exe') 3.2.发起请求 bro.get('https:/ 阅读全文

posted @ 2019-06-21 12:41 QV 阅读(511) 评论(0) 推荐(0)

selenium模块 phantomJs 谷歌无可视界面

摘要：参考微博: 什么是selenium 一款基于浏览器自动化的模块什么是浏览器自动化通过脚本程序或者python代码,这组程序或者代码表示一些行为动作,selenium可以让这些行为动作映射到浏览器中,根据设定好的行为动作完成自动化的操作和爬虫的关联模拟登陆获取动态数据 selenium如何获阅读全文

posted @ 2019-06-17 22:02 QV 阅读(542) 评论(0) 推荐(0)

scrapy框架初识

摘要：什么是框架其实就是一个具有很强通用性且集成了很多功能的项目模板如何学习框架掌握框架的功能,可以熟练使用每一种功能即可爬虫框架--scrapy框架: 在爬虫中集成了异步,高性能的数据解析,高性能的持久化存储..... scrapy环境的安装: a.打开cmd窗口对a进行操作安装wheel 阅读全文

posted @ 2019-06-17 17:14 QV 阅读(223) 评论(0) 推荐(0)

爬虫第二天

摘要：参考博客:https://www.cnblogs.com/cyycyhcbw/articles/10442399.html 聚焦爬虫:数据解析数据解析原理: 标签定位获取标签中的数据 python实现数据解析的方式: 正则 bs4 xpath pyquery bs4解析解析原理实例化一个Be 阅读全文

posted @ 2019-06-12 17:20 QV 阅读(256) 评论(0) 推荐(0)

爬虫第一天

摘要：爬虫学习参考博客:https://www.cnblogs.com/cyycyhcbw/articles/10442399.html 1.使用软件anaconda 2.输入jupyter notbook 3.anaconda使用快捷键 -插入cell: a 上一行插入 b 下一行插入 -删除: x - 阅读全文

posted @ 2019-06-11 22:05 QV 阅读(1594) 评论(0) 推荐(0)

python学习之路

随笔分类 - 爬虫

公告