2017年5月7日

应对加密js的三种方法

摘要: 经常遇到网页在登录后会对用户输入的帐号和密码通过js进行加密,导致模拟登录这类网站时受到阻碍 这里小记一下当前解决该问题的三种方法 1.利用python实现js同等加密。 2.利用selenium模拟登录。 3.利用pyexecjs来执行js文件 测试站点:http://bbs.125.la/ 登录 阅读全文

posted @ 2017-05-07 23:09 niansi 阅读(473) 评论(0) 推荐(0) 编辑

2017年5月1日

python实现RSA加解密

摘要: RSA的算法涉及三个参数,n、e、d。其中,n是两个大质数p、q的积,n的二进制表示所占用的位数,就是所谓的密钥长度。e和d是一对相关的值,e可以任意取,但要求e与(p-1)*(q-1)互质;再选择d,要求(d*e)mod((p-1)*(q-1))=1。(n,e),(n,d)就是密钥对。其中(n,e 阅读全文

posted @ 2017-05-01 16:55 niansi 阅读(3633) 评论(0) 推荐(0) 编辑

2017年4月24日

appium不能获取webview内容的解决办法

摘要: 在用appium对小猿搜题app进行自动化测试时,准备用page_source打印出文章的xml内容 但是发现只能打印出外部结构内容,实际的文章内容却没有显示 截图如下 查询之后,得知需要通过contexts获取所有的context,然后通过switch_to.context()切换到对应的cont 阅读全文

posted @ 2017-04-24 00:03 niansi 阅读(3844) 评论(0) 推荐(0) 编辑

2017年4月17日

selenium与phantomjs简单结合

摘要: selenium工具安装 Windows安装pip install selenium Linux安装apt-get install selenium 查看selenium支持的浏览器from selenium import webdriverhelp(webdriver) 无头浏览器phantomJ 阅读全文

posted @ 2017-04-17 00:05 niansi 阅读(238) 评论(0) 推荐(0) 编辑

2017年4月8日

使用PyV8模块破解网站加密cookie

摘要: PyV8是Chromium中内嵌的javascript引擎,号称跑的最快。PyV8是用Python在V8的外部API包装了一个python壳,这样便可以使python可以直接与javascript操作。 首先是正常请求网页,返回带加密的JS函数的html: import reimport PyV8i 阅读全文

posted @ 2017-04-08 23:43 niansi 阅读(688) 评论(0) 推荐(0) 编辑

2017年4月4日

selenium无法定位元素问题

摘要: 在用自动化测试工具selenium完成下载任务时,经常会遇到定位不到元素的情况,总结如下: 1.frame/iframe原因定位不到元素: 这个是最常见的原因,首先要理解下frame的实质,frame中实际上是嵌入了另一个页面,而selenium每次只能在一个页面识别,因此需要先定位到相应的fram 阅读全文

posted @ 2017-04-04 20:25 niansi 阅读(657) 评论(0) 推荐(0) 编辑

2017年3月26日

selenium 窗口句柄之间的切换

摘要: 以前使用selenium时都是在单窗口的模式下,本次新增多窗口下的窗口之间切换 from selenium import webdriver from selenium.webdriver.common.keys import Keys import selenium.webdriver.suppo 阅读全文

posted @ 2017-03-26 15:54 niansi 阅读(409) 评论(0) 推荐(0) 编辑

2017年3月18日

phantomjs 设置代理

摘要: phantomjs 可通过以下设置代理ip #coding=utf-8import osimport reimport timeimport requestsfrom scrapy.selector import HtmlXPathSelectorfrom scrapy.http import Ht 阅读全文

posted @ 2017-03-18 17:03 niansi 阅读(1541) 评论(1) 推荐(0) 编辑

2017年3月12日

搜索引擎不收录网页的常见原因

摘要: 周末在家查找了一下网站不被搜索引擎收录的可能原因,在此总结一下: 1、网页使用框架 框架内的内容通常不在搜索引擎抓取的范围之内。搜索引擎不抓取,自然就搜不到了。 2、图片太多,文本太少 这样的网站可能会被搜索引擎认为是一种垃圾网站,不会进行收录。 3、提交页面转向另一网站 这个理由同上,搜索引擎可能 阅读全文

posted @ 2017-03-12 21:35 niansi 阅读(583) 评论(0) 推荐(0) 编辑

2017年3月6日

网络爬虫与web之间的访问授权协议——Robots

摘要: 网站的管理者们通常会有这样一种心态:一方面期待百度、Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息。正是因为这样,才有“好爬虫”、“坏爬虫”这样的说法。提到“好爬虫”,就不得不提网络爬虫与web之间的访问授权协议——Robots协议了。Robots协 阅读全文

posted @ 2017-03-06 06:38 niansi 阅读(876) 评论(1) 推荐(0) 编辑

导航