Python爬虫 - 随笔分类 - math98

pyppeteer的使用（笔记，未完待续）

摘要：1、基本使用 import asyncio from pyppeteer import launch async def main(): browser = await launch( {'headless': False, 'userDataDir': r'C:\temp', 'autoClose 阅读全文

posted @ 2020-11-24 23:29 math98

pyppeteer 安装

摘要：pip install pyppeteer（速度慢，不推荐） pip install pyppeteer -i https://pypi.douban.com/simple（国内镜像，速度快，推荐）（待修改，参考：https://www.cnblogs.com/kindvampire/p/1308 阅读全文

posted @ 2020-11-24 23:26 math98

Python生成随机字符串

摘要：import random, string #第一种方法(推荐) def random_str(slen=10): seed = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@#$%^&*()_+=-" sa = [ 阅读全文

posted @ 2019-11-13 10:01 math98

python+selenium alert\confirm\prompt

摘要：前言不是所有的弹出框都叫alert，在使用alert方法前，先要识别出到底是不是alert。先认清楚alert长什么样子，下次碰到了，就可以用对应方法解决。 alert\confirm\prompt弹出框操作主要方法有： text：获取文本值 accept() ：点击"确认" dismiss() 阅读全文

posted @ 2019-06-13 00:02 math98

python+selenium 文件上传

摘要：前言文件上传是web页面上很常见的一个功能，自动化成功中操作起来却不是那么简单。一般分两个场景：一种是input标签，这种可以用selenium提供的send_keys()方法轻松解决；另外一种非input标签实现起来比较困难，可以借助autoit工具或者SendKeys第三方库。本篇以博客阅读全文

posted @ 2019-06-12 23:58 math98

python+selenium 多窗口、句柄（handle）

摘要：前言有些页面的链接打开后，会重新打开一个窗口，对于这种情况，想在新页面上操作，就得先切换窗口了。获取窗口的唯一标识用句柄表示，所以只需要切换句柄，我们就能在多个页面上灵活自如的操作了。一、认识多窗口 1.打开赶集网：http://bj.ganji.com/，点击招聘求职按钮会发现右边多了一个窗口阅读全文

posted @ 2019-06-12 23:57 math98

python+selenium 切换iframe

摘要：转载自上海-悠悠的博客 http://www.cnblogs.com/yoyoketang/p/6128619.html 前言有很多小伙伴在拿163作为登录案例的时候，发现不管怎么定位都无法定位到，到底是什么鬼呢，本篇详细介绍iframe相关的切换以http://mail.163.com/登录阅读全文

posted @ 2019-06-12 23:56 math98

python+selenium元素定位

摘要：1.打开浏览器 1.打开Firefox浏览器 from selenium import webdriver driver = webdriver.Firefox() driver.get("https://www.baidu.com") 2.打开Ie或Chrome浏览器 -->先将驱动文件放到pyt 阅读全文

posted @ 2019-06-12 23:55 math98

python+selenium 单选框和复选框（radiobox、checkbox）

摘要：本篇主要介绍单选框和复选框的操作一、认识单选框和复选框 1.先认清楚单选框和复选框长什么样 2.各位小伙伴看清楚哦，上面的单选框是圆的；下图复选框是方的，这个是业界的标准，要是开发小伙伴把图标弄错了，可以先抽他了。二、radio和checkbox源码 1.上图的html源码如下，把下面这段复杂下阅读全文

posted @ 2019-06-12 23:49 math98

python+selenium select下拉框

摘要：转载自上海悠悠的博客一、认识select 1.打开百度-设置-搜索设置界面，如下图所示 2.箭头所指位置，就是select选项框，打开页面元素定位，下方红色框框区域，可以看到select标签属性：<select id="nr" name="NR"> 3.选项有三个<option selected= 阅读全文

posted @ 2019-06-12 23:47 math98

python+selenium JS处理滚动条

摘要：转载于上海悠悠的博客前言 selenium并不是万能的，有时候页面上操作无法实现的，这时候就需要借助JS来完成了。常见场景：当页面上的元素超过一屏后，想操作屏幕下方的元素，是不能直接定位到，会报元素不可见的。这时候需要借助滚动条来拖动屏幕，使被操作的元素显示在当前的屏幕上。滚动条是无法直接阅读全文

posted @ 2019-06-12 23:46 math98

selenium+chrome笔记（4）（截图）

摘要：selenium在使用时一直提醒换掉phantomjs 改用 chrome的headless模式，主要是因为phantomjs的维护已经很少了，而chrome的headless模式越来越完善。本来只是自己研究研究，踩了几个坑，想不到昨天线上截图服务器出了问题，初步判断是淘宝搞事，用js获取当前浏览阅读全文

posted @ 2019-06-12 23:32 math98

selenium+chrome笔记（3）（实用参数）

摘要：参数设置 phantomJS参数设置示例 from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities from selenium.webdr 阅读全文

posted @ 2019-06-12 23:20 math98

Selenium+Chrome 笔记（2）

摘要：1、基本操作类：方法功能 set_window_size() 设置浏览器的大小 back() 控制浏览器后退 forward() 控制浏览器前进 refresh() 刷新当前页面 clear() 清除文本 send_keys (value) 模拟按键输入 click() 单击元素 submit() 阅读全文

posted @ 2019-06-12 23:04 math98

Selenium+Chrome笔记（1）

摘要：在此之前我先简单介绍一下Selenium调用Chrome Drive的几个常用的参数设置： 1、不加载图片 2、不使用GUI（handless，也就是不打开Chrome的界面，后台运行，这样子的话在服务器上很好用）代码如下： from selenium import webdriver PicLo 阅读全文

posted @ 2019-06-12 22:58 math98

使用Selenium模拟浏览器抓取淘宝商品美食信息

摘要：淘宝页面比较复杂，含有各种请求参数和加密参数，如果直接请求或者分析Ajax将会非常繁琐。Selenium是一个自动化测试工具，可以驱动浏览器去完成各种工作，比如模拟点击、输入和下拉等多种功能，这样我们只需关心操作，不需要关心后台发生了怎么样的请求下面对具体操作步骤进行详述。创建webdriver对阅读全文

posted @ 2019-06-12 21:47 math98

useragent收集

摘要：适时更新。。。 Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 阅读全文

posted @ 2019-05-25 23:35 math98

Requests登录及利用Cookies登录

摘要：转自：https://www.cnblogs.com/ddddfpxx/p/8624715.html 利用Python中的Requests模块可以实现Post，Get等发送功能，我以登录某网站为例，记录使用Post发送用户名、密码及图形验证码，以及通过Cookies直接登录的内容。 1.利用POST 阅读全文

posted @ 2019-05-13 11:02 math98

xpath提取Tag下的所有text/匹配部分Tag名称

摘要：tree = etree.HTML(html) tag = tree.xpath('//~~')[0] text_tag = tag.xpath('string(.)').strip() #只有这个方法最可靠 tree = etree.HTML(html) node_list = tree.xpath('//div[contains(@id, "qiushi_tag")]') #id... 阅读全文

posted @ 2018-05-16 09:29 math98

Html解析，方便速查

摘要：记性不好，收集，方便查询 lxml_xpath xpath('//button/span[contains(text(), "指定文本内容")]') #使用 xpath 定位包含指定文本内容的标签，例如：a = tree.xpath('//a[contains(text(), "下一页")]/@hr 阅读全文

posted @ 2018-05-06 22:21 math98

随笔分类 - Python爬虫