摘要:
1.回顾上篇 1.请求传参(item): - 应用场景:解析的数据不在同一张页面中 - Request(callback,meta={}) 2.LOG_LEVEL LOG_FILE 3.下载中间件: - 批量拦截请求(代理ip和UA)和响应(处理页面数据) 4.如何在scrapy使用selenium 阅读全文
摘要:
1.scrapy的post请求 2.动态传参问题 3.中间件 middlewares settings 4.selenium的使用 spider middlewares 阅读全文
摘要:
1.移动端数据 2.scrapy的初步使用 settings 解析数据+管道持久化存储 settings items pipelines 阅读全文
摘要:
1.处理验证码 import http.client, mimetypes, urllib, json, time, requests ###################################################################### class YDMHt 阅读全文
摘要:
使用xpath解析数据 环境安装: 解析原理: 1.获取网页源码数据 2.实例化一个etree对象,并切将页面源码数据加载到该对象中 3.调用该对象的xpath方法进行制定标签的定位 ps:xpath函数必须结合xpath表达式进行标签的定位和内容捕获 案例: 1 # - 解析图片数据:http:/ 阅读全文
摘要:
1.jupyter的快捷键 2.requests 1 #需求:爬取搜狗指定词条搜索后的页面数据 2 import requests 3 4 url = 'https://www.sogou.com/web' 5 # 封装参数 6 wd = input('enter a word:') 7 parma 阅读全文
摘要:
openpyxl 操作excel的库,只能操作xlxs 文件, xlrd/xlwt这两个库能兼容xls(2003版) 安装 excel的写入 创建一个工作簿并保存 修改工作簿的名称 获取所有工作簿的名称 获取其中一个工作簿名称 写数据 append函数 excel的读取 获取最大行,最大列 获取行和 阅读全文
摘要:
setup ansible_all_ipv4_addresses # ipv4的所有地址 ansible_all_ipv6_addresses # ipv6的所有地址 ansible_date_time # 获取到控制节点时间 ansible_default_ipv4 # 默认的ipv4地址 ans 阅读全文
摘要:
软件相关模块 yum rpm和yum的区别 rpm:redhat package manager yum可以解决依赖关系 yum源配置 [epel] name=Extra Packages for Enterprise Linux 7 - $basearch #名字 baseurl=http://m 阅读全文
摘要:
ansible的安装 第一步:下载epel源 第二部:安装ansible salt 控制节点需要安装salt-master salt 被控制节点序言安装salt-minion ansible 通过ssh来连接并控制被控制节点 ssh的认证方式 密码连接 秘钥连接 ssh 秘钥登录 ssh-keyge 阅读全文