摘要: 0.目录 1.参考 2. pool_connections 默认值为10,一个站点主机host对应一个pool (4)分析 host A>>host B>>host A page2>>host A page3 限定只保留一个pool(host),根据TCP源端口可知,第四次get才能复用连接。 3. 阅读全文
posted @ 2017-08-10 23:14 my8100 阅读(7578) 评论(0) 推荐(0) 编辑
摘要: 1.注释 1.1HTML 注释 http://www.w3school.com.cn/html/html_comments.asp 注释标签 <!-- 与 --> 用于在 HTML 插入注释。 1.2JavaScript注释 https://www.liaoxuefeng.com/wiki/0014 阅读全文
posted @ 2017-08-05 21:19 my8100 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 0.思路 如果懒得模拟登录,或者模拟登录过于复杂(多步交互或复杂验证码)则人工登录后手动复制cookie(或者代码读取浏览器cookie),缺点是容易过期。 如果登录是简单的提交表单,代码第一步模拟登录,第二步通过cookiejar访问目标url。 1.参考 python处理cookie详解 李劼杰 阅读全文
posted @ 2017-08-03 17:51 my8100 阅读(13234) 评论(0) 推荐(0) 编辑
摘要: 1.参考 Py 坑之 CERTIFICATE_VERIFY_FAILED Python 升级到 2.7.9 之后引入了一个新特性,当你urllib.urlopen一个 https 的时候,会验证一次 SSL 证书,当目标网站使用的是自签名的证书时就会爆出一个 urllib2.URLError: <u 阅读全文
posted @ 2017-08-03 13:06 my8100 阅读(8156) 评论(0) 推荐(0) 编辑
摘要: 1.简单使用 2.console输出并保存到文件 (1)参考 python logging 日志输出 学习笔记 时间格式化 python标准日志模块logging的使用方法 第二个链接还没好好利用! (2)更新代码 3. cookielib.py 阅读全文
posted @ 2017-08-02 12:46 my8100 阅读(203) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2017-07-26 15:12 my8100 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 开源项目 如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目 LogParser v0.8.0 发布:一个用于定期增量式解析 Scrapy 爬虫日志的 Python 库,配合 ScrapydWeb 使用可实现爬虫进度可视化 如何免费创建云端爬虫集群 时隔五年,Sc 阅读全文
posted @ 2017-07-25 12:58 my8100 阅读(774) 评论(0) 推荐(0) 编辑
摘要: 1.参考 利用 Python + Selenium 自动化快速截图 利用 Python + Selenium 实现对页面的指定元素截图(可截长图元素) 使用python获取系统所有进程PID以及进程名称 python锁定焦点到指定进程窗口的参考方法 2.改进js代码,下拉和上拉,精确判断加载是否结束 阅读全文
posted @ 2017-07-25 12:40 my8100 阅读(1148) 评论(0) 推荐(0) 编辑
摘要: 0.关键实现:程序窗口前置 python 通过js控制滚动条拉取全文 通过psutil获取pid窗口句柄,通过win32gui使程序窗口前置 通过pyauto实现右键菜单和另存为操作 1.参考 autopy (实践见最后一章节) 用Python制作游戏外挂(上) AutoPy Introductio 阅读全文
posted @ 2017-07-24 21:48 my8100 阅读(5047) 评论(0) 推荐(0) 编辑
摘要: 1.实验 2.总结 location 始终不滚动,返回相对整个html或者对应frame的坐标location_once_scrolled_into_view chrome完全可见不滚动,firefox始终会滚动;而且chrome底部元素会底部对齐,其余情况两者都是顶部对齐。 一般返回相对可视区域坐 阅读全文
posted @ 2017-07-23 17:58 my8100 阅读(16943) 评论(0) 推荐(1) 编辑