摘要: 今日概要 基于终端指令的持久化存储 基于管道的持久化存储 今日详情 1.基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件 阅读全文
posted @ 2020-07-12 14:57 时光哥哥 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 一. 生成公钥及私钥, 并保存 二. 使用公钥加密, 私钥解密 后记: 通常使用中, 会先对数据进行bas64加密, 再对加密后的内容使用rsa加密, 最后对rsa解密后的内容 进行bas64解密. 阅读全文
posted @ 2020-07-04 22:06 时光哥哥 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 微博登录页面分析 目标网站:https://weibo.com/ 微博密码加密使用的是rsa算法 微博登陆成功总共涉及到三个步骤: 1、向https://login.sina.com.cn/sso/prelogin.php发送请求来获取密码加密所需要的公钥及一系列下次发送请求所需要的参数 2、向ht 阅读全文
posted @ 2020-07-04 21:57 时光哥哥 阅读(1728) 评论(0) 推荐(1) 编辑
摘要: 显示等待:WebDriverWait 等待页面加载完成,找到某个条件发生后再继续执行后续代码,如果超过设置时间检测不到则抛出异常 WebDriverWait(driver, timeout, poll_frequency=0.5, ignored_exceptions=None) ——driver: 阅读全文
posted @ 2020-06-29 16:18 时光哥哥 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 先来个工具操作 1、获取链接https://www.huya.com/g/xingxiu 2、删除字段、增加字段、开始采集 3、启动 4、运行中 5、采的太多了我就停止了 6、导出数据Excel格式 7、查看本地文件 8、导入到mysql数据库 9、mysql配置 10、选择导出设置 11、查看my 阅读全文
posted @ 2020-06-28 14:38 时光哥哥 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 有水印视频 上面那个链接在浏览器打开就是播放地址 ,可以直接请求并保存视频 无水印视频 没有水印的视频是音频和视频分离的,在network下选择xhr 无水印的有一些加密参数暂时没有找到是怎么加密的 有水印的视频还有一种下载方式 代码如下 # -*- coding: utf-8 -*- # __au 阅读全文
posted @ 2020-06-26 15:08 时光哥哥 阅读(2796) 评论(0) 推荐(0) 编辑
摘要: 1.创建一个新项目: scrapy startproject myproject 2.在新项目中创建一个新的spider文件: scrapy genspider mydomain mydomain.com mydomain为spider文件名,mydomain.com为爬取网站域名 3.全局命令: 阅读全文
posted @ 2020-06-24 19:35 时光哥哥 阅读(456) 评论(0) 推荐(0) 编辑
摘要: Spiders(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据 阅读全文
posted @ 2020-06-24 19:31 时光哥哥 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 原文:https://kivy.org/doc/stable/installation/installation-windows.html#install-win-dist 如果您使用Anaconda,则可以使用以下命令安装kivy: $ conda install kivy -c conda-fo 阅读全文
posted @ 2020-06-18 18:01 时光哥哥 阅读(1714) 评论(0) 推荐(0) 编辑
摘要: 一、常用库导入 1.from selenium import webdriver 导入webdriver模块 2.from selenium.webdriver import ActionChains 导入动作链类,动作链可以储存鼠标的动作,并一起执行 3.from selenium.webdriv 阅读全文
posted @ 2020-06-16 16:36 时光哥哥 阅读(802) 评论(0) 推荐(0) 编辑