随笔分类 - 爬虫
摘要:crawlspider和spider的区别 crawlspider创建爬虫文件的命令: scrapy genspider 爬虫文件名-t crawl www.xxx.com spider创建爬虫文件的命令: scrapy genspider 爬虫文件名 www.xxx.com crawlspider
阅读全文
摘要:scrapy的下载中间件的作用:批量拦截整个工程中发起的所有请求和响应 拦截请求: UA伪装: 代理ip: 拦截响应: 拦截异常 #批量拦截所有的请求和响应 class MiddlewearproDownloaderMiddleware(object): #UA池 user_agent_list =
阅读全文
摘要:1.scrapy的请求传参 使用场景:如果使用scrapy爬取的数据没有在同一张页面中,则必须使用请求传参 使用方法:yield scrapy.Request(url,callback,meta) :callback回调一个函数用于数据解析 :meta用来传递数据 爬虫文件操作: 1.导包 from
阅读全文
摘要:1.scrapy在windows环境下安装 - 环境的安装: a. pip3 install wheel b. 下载twisted: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twiste
阅读全文
摘要:数据解析的目的是获取局部的数据 数据解析的方法有正则,xpath,bs4 正则:https://www.cnblogs.com/l1222514/p/11011009.html 正则解析: import re #正则获取定位 可以获取括号里面的内容 ex='xxxxx(.*?)xxxx' re.fi
阅读全文
摘要:requests模块的get操作 1.导包 import requests 2.get操作的三个参数 requests.get(url,params,headers) url params :get请求携带的参数 heraders:UA伪装 url = 'https://www.sogou.com/
阅读全文
摘要:1.scrapy数据分析 2.scrapy持久化存储 3.全站数据爬取 4.请求传参 + 五大核心组件 - scrapy的数据解析 - 在scrapy中使用xpath解析标签中的文本内容或者标签属性的话,最终获取的是一个Selector的对象,且我们需要的字符串数据全部被封装在了该对象中 - 如果可
阅读全文
摘要:1.封装在线打码平台--超级鹰 2. 3.对12306进行模拟登录:验证码图片必须通过裁剪图片的形式获取 3.1.浏览器实例化 bro = webdriver.Chrome(executable_path='./chromedriver.exe') 3.2.发起请求 bro.get('https:/
阅读全文
摘要:参考微博: 什么是selenium 一款基于浏览器自动化的模块 什么是浏览器自动化 通过脚本程序或者python代码,这组程序或者代码表示一些行为动作,selenium可以让这些行为动作映射到浏览器中,根据设定好的行为动作完成自动化的操作 和爬虫的关联 模拟登陆 获取动态数据 selenium如何获
阅读全文
摘要:什么是框架 其实就是一个具有很强通用性且集成了很多功能的项目模板 如何学习框架 掌握框架的功能,可以熟练使用每一种功能即可 爬虫框架--scrapy框架: 在爬虫中集成了异步,高性能的数据解析,高性能的持久化存储..... scrapy环境的安装: a.打开cmd窗口 对a进行操作 安装wheel
阅读全文
摘要:参考博客:https://www.cnblogs.com/cyycyhcbw/articles/10442399.html 聚焦爬虫:数据解析 数据解析原理: 标签定位 获取标签中的数据 python实现数据解析的方式: 正则 bs4 xpath pyquery bs4解析 解析原理 实例化一个Be
阅读全文
摘要:爬虫学习参考博客:https://www.cnblogs.com/cyycyhcbw/articles/10442399.html 1.使用软件anaconda 2.输入jupyter notbook 3.anaconda使用快捷键 -插入cell: a 上一行插入 b 下一行插入 -删除: x -
阅读全文