pyppeteer的使用(笔记,未完待续)
摘要:1、基本使用 import asyncio from pyppeteer import launch async def main(): browser = await launch( {'headless': False, 'userDataDir': r'C:\temp', 'autoClose
阅读全文
pyppeteer 安装
摘要:pip install pyppeteer(速度慢,不推荐) pip install pyppeteer -i https://pypi.douban.com/simple(国内镜像,速度快,推荐) (待修改,参考:https://www.cnblogs.com/kindvampire/p/1308
阅读全文
Python生成随机字符串
摘要:import random, string #第一种方法(推荐) def random_str(slen=10): seed = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-" sa = [
阅读全文
python+selenium alert\confirm\prompt
摘要:前言 不是所有的弹出框都叫alert,在使用alert方法前,先要识别出到底是不是alert。先认清楚alert长什么样子,下次碰到了,就可以用对应方法解决。 alert\confirm\prompt弹出框操作主要方法有: text:获取文本值 accept() :点击"确认" dismiss()
阅读全文
python+selenium 文件上传
摘要:前言 文件上传是web页面上很常见的一个功能,自动化成功中操作起来却不是那么简单。 一般分两个场景:一种是input标签,这种可以用selenium提供的send_keys()方法轻松解决; 另外一种非input标签实现起来比较困难,可以借助autoit工具或者SendKeys第三方库。 本篇以博客
阅读全文
python+selenium 多窗口、句柄(handle)
摘要:前言 有些页面的链接打开后,会重新打开一个窗口,对于这种情况,想在新页面上操作,就得先切换窗口了。获取窗口的唯一标识用句柄表示,所以只需要切换句柄,我们就能在多个页面上灵活自如的操作了。 一、认识多窗口 1.打开赶集网:http://bj.ganji.com/,点击招聘求职按钮会发现右边多了一个窗口
阅读全文
python+selenium 切换iframe
摘要:转载自 上海-悠悠的博客 http://www.cnblogs.com/yoyoketang/p/6128619.html 前言 有很多小伙伴在拿163作为登录案例的时候,发现不管怎么定位都无法定位到,到底是什么鬼呢,本篇详细介绍iframe相关的切换 以http://mail.163.com/登录
阅读全文
python+selenium元素定位
摘要:1.打开浏览器 1.打开Firefox浏览器 from selenium import webdriver driver = webdriver.Firefox() driver.get("https://www.baidu.com") 2.打开Ie或Chrome浏览器 -->先将驱动文件放到pyt
阅读全文
python+selenium 单选框和复选框(radiobox、checkbox)
摘要:本篇主要介绍单选框和复选框的操作 一、认识单选框和复选框 1.先认清楚单选框和复选框长什么样 2.各位小伙伴看清楚哦,上面的单选框是圆的;下图复选框是方的,这个是业界的标准,要是开发小伙伴把图标弄错了,可以先抽他了。 二、radio和checkbox源码 1.上图的html源码如下,把下面这段复杂下
阅读全文
python+selenium select下拉框
摘要:转载自上海悠悠的博客 一、认识select 1.打开百度-设置-搜索设置界面,如下图所示 2.箭头所指位置,就是select选项框,打开页面元素定位,下方红色框框区域,可以看到select标签属性:<select id="nr" name="NR"> 3.选项有三个<option selected=
阅读全文
python+selenium JS处理滚动条
摘要:转载于上海悠悠的博客 前言 selenium并不是万能的,有时候页面上操作无法实现的,这时候就需要借助JS来完成了。 常见场景: 当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的。 这时候需要借助滚动条来拖动屏幕,使被操作的元素显示在当前的屏幕上。 滚动条是无法直接
阅读全文
selenium+chrome笔记(4)(截图)
摘要:selenium在使用时一直提醒换掉phantomjs 改用 chrome的headless模式,主要是因为phantomjs的维护已经很少了,而chrome的headless模式越来越完善。 本来只是自己研究研究,踩了几个坑,想不到昨天线上截图服务器出了问题,初步判断是淘宝搞事,用js获取当前浏览
阅读全文
selenium+chrome笔记(3)(实用参数)
摘要:参数设置 phantomJS参数设置示例 from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities from selenium.webdr
阅读全文
Selenium+Chrome 笔记(2)
摘要:1、基本操作类: 方法功能 set_window_size() 设置浏览器的大小 back() 控制浏览器后退 forward() 控制浏览器前进 refresh() 刷新当前页面 clear() 清除文本 send_keys (value) 模拟按键输入 click() 单击元素 submit()
阅读全文
Selenium+Chrome笔记(1)
摘要:在此之前我先简单介绍一下Selenium调用Chrome Drive的几个常用的参数设置: 1、不加载图片 2、不使用GUI(handless,也就是不打开Chrome的界面,后台运行,这样子的话在服务器上很好用) 代码如下: from selenium import webdriver PicLo
阅读全文
使用Selenium模拟浏览器抓取淘宝商品美食信息
摘要:淘宝页面比较复杂,含有各种请求参数和加密参数,如果直接请求或者分析Ajax将会非常繁琐。Selenium是一个自动化测试工具,可以驱动浏览器去完成各种工作,比如模拟点击、输入和下拉等多种功能,这样我们只需关心操作,不需要关心后台发生了怎么样的请求下面对具体操作步骤进行详述。 创建webdriver对
阅读全文
useragent收集
摘要:适时更新。。。 Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101
阅读全文
Requests登录及利用Cookies登录
摘要:转自:https://www.cnblogs.com/ddddfpxx/p/8624715.html 利用Python中的Requests模块可以实现Post,Get等发送功能,我以登录某网站为例,记录使用Post发送用户名、密码及图形验证码,以及通过Cookies直接登录的内容。 1.利用POST
阅读全文
xpath提取Tag下的所有text/匹配部分Tag名称
摘要:tree = etree.HTML(html) tag = tree.xpath('//~~')[0] text_tag = tag.xpath('string(.)').strip() #只有这个方法最可靠 tree = etree.HTML(html) node_list = tree.xpath('//div[contains(@id, "qiushi_tag")]') #id...
阅读全文
Html解析,方便速查
摘要:记性不好,收集,方便查询 lxml_xpath xpath('//button/span[contains(text(), "指定文本内容")]') #使用 xpath 定位包含指定文本内容的标签,例如:a = tree.xpath('//a[contains(text(), "下一页")]/@hr
阅读全文