pyppteer下

官方文档
启动pyppteer
切图
获取响应头，响应头状态，cookies
获取当前页面标题
获取页面html
- 第一种：获取整个页面html
- 第二种：只获取文本
注入JS，控制上下滚动
选择器
- 获取元素内部的文本、属性
- get_html
模拟输入，鼠标点击
taobao登录
- taobao修改检测浏览器
鼠标事件
键盘事件
使用ip代理ua

官方文档

https://miyakogi.github.io/pyppeteer/reference.html#mouse-class

启动pyppteer

import asyncio
from pyppeteer import launch


async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )

    # 打开一个页面
    page = await browser.newPage()
    
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)

    print(await page.content())  # 返回html代码
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

切图

# 设置页面视图大小
await page.setViewport(viewport={'width': 1280, 'height': 800})
# 是否启用JS，enabled设为False，则无渲染效果
await page.setJavaScriptEnabled(enabled=True)
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)

# 截图 保存图片
await page.screenshot({'path': 'cnblog.png'})

获取响应头，响应头状态，cookies

async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
	resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    cookies = page.cookies()
    
    print(resp_headers)
    print(resp_status)
    print(page.cookies())
    
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

获取当前页面标题

print(await page.title())

获取页面html

import asyncio
from pyppeteer import launch


async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
     # 打开一个页面
    page = await browser.newPage()
	# 是否启用JS，enabled设为False，则无渲染效果
    await page.setJavaScriptEnabled(enabled=True)

    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
    
    print(await page.content())  # 返回html代码

第一种：获取整个页面html

 res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
 # 等待
 await asyncio.sleep(2)

print(await page.content())  # 返回html代码

第二种：只获取文本

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)
print(content)

注入JS，控制上下滚动

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
# 滑到底部
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')



# js
window.scrollTo(0,100)  # 向下滑动100
window.scrollTo(0,500)  # 向下滑动500
window.scrollTo(0,document.body.scrollHeight)  # 滑到底部
window.scrollTo(0,document.body.scrollHeight-500) # 滑到-500

选择器

Page.querySelector()  # CSS选择器
Page.querySelectorAll()  # CSS选择器选所有
Page.xpath()  # xpath选择器

# 简写方式为：
Page.J(), Page.JJ(), and Page.Jx()

获取元素内部的文本、属性

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)

await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

# 方式一：获取h1标签内容--执行JS方式
element = await page.querySelector('h1')
title = await page.evaluate('(element) => element.textContent', element)

# 方式二：获取文本
element = await page.querySelector('h1')
title = await (await item.getProperty('textContent')).jsonValue()

# 方式三：获取属性src,href
element = await page.querySelector('h1')
title_link = await (await item.getProperty('href')).jsonValue()

get_html

async def get_html(url):
    browser = await pyppeteer.launch(headless=True, args=['--no-sandbox'])
    page = await  browser.newPage()
    res = await page.goto(url, options={'timeout': 3000})
    data = await page.content()
    title = await page.title()
    resp_cookies = await page.cookies()  # cookie
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    print(data)
    print(title)
    print(resp_headers)
    print(resp_status)
    return xxx

模拟输入，鼠标点击

# 模拟输入 账号密码  {'delay': rand_int()} 为输入时间
await page.type('#fm-login-id', "用户名")
await page.type('#fm-login-password', "密码", )

await page.waitFor(1000) # 等待时间
await page.click("#J_SubmitStatic")  # 点击

taobao登录

import asyncio
from pyppeteer import launch


async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    await page.setViewport(viewport={'width': 1280, 'height': 800})

    res = await page.goto('https://login.taobao.com/', options={'timeout': 10000})
    await page.type('#fm-login-id', "123456")
    await page.type('#fm-login-password', "aaa", )
    await page.waitFor(1000)  # 等待时间
    
    slider = await page.querySelector('#nc_1_n1z') # 是否有滑块
    if slider:
        try:
            print('有滑块')
            await page.hover('#nc_1_n1z')  # 不同场景的验证码模块能名字不同。
            await page.mouse.down()
            
            # X，Y坐标，steps 是指分成几步来完成，steps越大，滑动速度越慢。(在源码中，steps是指移动到指定x,y 分段滑动的次数，但是每次启动滑动都会花费一定时间，可以认为steps是滑动的速度)
            # 如果是每次移动的距离，可以用for循环尝试正负移动
            await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
            await page.mouse.up()
        except Exception as e:
            print(e)
            input('验证失败，人工登录：')
    else:
        print('没有滑块')
        input()

    await page.click("#login-form > div.fm-btn > button")  # 点击登录
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

taobao修改检测浏览器

await page.evaluate(
        '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')  # 以下为插入中间js，将淘宝会为了检测浏览器而调用的js修改其结果。
await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')

# 使用type选定页面元素，并修改其数值，用于输入账号密码，修改的速度仿人类操作，因为有个输入速度的检测机制
# 因为 pyppeteer 框架需要转换为js操作，而js和python的类型定义不同，所以写法与参数要用字典，类型导入
await page.type('.J_UserName', username, {'delay': input_time_random() - 50})
await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})
# await page.screenshot({'path': './headless-test-result.png'})    # 截图测试

def input_time_random():
    return random.randint(100, 151)

鼠标事件

.click()  # 点击按钮
.down()   # 按下按钮
.up()     # 释放按钮
.move()   # 移动光标

键盘事件

您可以使用down()，up()和 sendCharacter()手动触发事件，就好像事件是由真实键盘生成的一样。

await page.keyboard.press('ArrowLeft')

await page.keyboard.down('Shift')
for i in ' World':
    await page.keyboard.press('ArrowLeft')
await page.keyboard.up('Shift')

await page.keyboard.press('Backspace')
# Result text will end up saying 'Hello!'.

按下键盘A：

await page.keyboard.down('Shift')
await page.keyboard.press('KeyA')
await page.keyboard.press('Enter')
await page.keyboard.up('Shift')

注意
修饰键确实会影响down()。按住shift 将以大写形式键入文本。

参数：	
key（str）–要按键的名称，例如ArrowLeft。
options（dict）–选项可以具有text字段，如果指定了此选项，则使用此文本生成输入事件。

使用ip代理ua

import asyncio
from pyppeteer import launch

async def register():
    browser = await launch({
        'headless': False,
        # 代理ip
        'args': ['--proxy-server=47.105.111.124:15525', ]
    })
    page = await browser.newPage()
    await page.setUserAgent(
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')

    
    
asyncio.get_event_loop().run_until_complete(register())

# 更多参数
args: [
            '--disable-setuid-sandbox',
            '--no-sandbox',
            '--proxy-server=10.24.51.125:8411',
            '--ignore-certificate-errors',
            '--window-size=375,812',
            '--remote-debugging-port=9222'
        ],

posted @ 2020-05-19 11:32 Jeff的技术栈阅读(742) 评论(0) 编辑收藏举报

刷新页面返回顶部

Jeff的技术栈

生命在于运动，学习在于坚持！！！

pyppteer下

官方文档

启动pyppteer

切图

获取响应头，响应头状态，cookies

获取当前页面标题

获取页面html

第一种：获取整个页面html

第二种：只获取文本

注入JS，控制上下滚动

选择器

获取元素内部的文本、属性

get_html

模拟输入，鼠标点击

taobao登录

taobao修改检测浏览器

鼠标事件

键盘事件

使用ip代理ua

公告