python心得笔记18.10.25

今天写了一个爬虫,是关于某机构考试题的记录一下思路和要点

2018.10.25

在同事桌子下发现一叠卡

是某培训机构的模拟考试体验卡

突然心血来潮想爬他的所有题库

然后....

这里记录一下整个思路和大致过程,作为回忆

 

为方便后来者

这里大概用到几个思路

selenium 自动化登录 取cookies
requests + cookies  直接获取html
re 清洗数据
xlwings 汇总到excel




细节部分.....
selenium 自动化登录 取cookies
from selenium import webdriver
driver = webdriver.Chrome()
driver.find_element_by_xpath('//*[@id="card_no"]').clear()
driver.find_element_by_xpath('//*[@id="card_no"]').send_keys(id)
driver.find_element_by_xpath('//*[@id="card_pwd"]').clear()
driver.find_element_by_xpath('//*[@id="card_pwd"]').send_keys(pass_word)
driver.find_element_by_xpath('//*[@id="input1"]').click()

输入账号密码 点登录后
cookies = driver.get_cookies()#获取登录之后的cookies


重点............
cookie = {}
for temp in cookies:
cookie[temp.get('name')] = temp.get('value')

这个字典才是cookies

第二部个细节...
requests + cookies  直接获取html
import requests
response = requests.get(url, cookies=cookies)# 这个cookies 是上文的cookie字典
response.encoding = 'utf-8'
html = response.text

html 就是页面所有数据

第三个正则部分就是脏活,蛮力干..我用的是re, 至于xpath 目前还很生疏,毕竟是小白,没实战过,这就没去研究

最后一部分是xlwings 的操作 摸索一下就ok了
这里贴出xlwings 的基础用法
https://www.jianshu.com/p/e21894fc5501
我这就不重复粘贴了

感谢python带给我的快乐

 










posted @ 2018-10-25 17:10  Larry_1  阅读(174)  评论(0编辑  收藏  举报