python登录网易163邮箱,爬取邮件
1 from common import MyRequests,LoggerUntil,handle_exception 2 3 myRequests.update_headers({ 'Accept':'text/javascript',}) ##这个地方加入accept了,主要是在邮件提取那里,不加入这个返回的是xml格式,加入后返回json格式,这样在提取方面更容易一些。 4 url = 'https://mail.163.com/entry/cgi/ntesdoor?funcid=loginone&language=-1&passtype=1&iframe=1&product=mail163&from=web&df=email163&race=-2_262_-2_hz&module=&uid={0}&style=-1&net=t&skinid=null'.format('13148804507@163.com') 5 datax = { 6 'username':'13148804507@167.com', 7 'url2':'http://email.163.com/errorpage/error163.htm', 8 'savalogin':'0', 9 'password':'123456789abcd', 10 } 11 12 text= myRequests.post(url,data = datax) 13 #到这一步已经登录ok了,可以打印cookie看看就能知道了。 14 15 16 抓取邮件, 17 请求完成后,打印text 得到 19 <html><head><script type="text/javascript">top.location.href = "http://mail.163.com/js6/main.jsp?sid=iCApYbICzSWVFIFqHTCCdtntXqDYrVhB&df=email163";</script></head><body></body></html> 20 21 sid =re.search('sid=(.*?)&',resp.text).group(1) #使用正则把sid取出来 22 url = 'http://mail.163.com/js6/s?sid={sid}&func=mbox:listMessages&LeftNavfolder1Click=1&mbox_folder_enter=1'.format(sid=sid) 23 datax = {'var':'<?xml version="1.0"?><object><int name="fid">1</int><string name="order">date</string><boolean name="desc">true</boolean><int name="limit">20</int><int name="start">0</int><boolean name="skipLockedFolders">false</boolean><string name="topFlag">top</string><boolean name="returnTag">true</boolean><boolean name="returnTotal">true</boolean></object>'} 24 print myRequests.post(url, data=datax) 25 26 #这样就打印出所有邮件了。然后筛选邮件,找出与信用卡相关的邮件,做征信风控用。
其中myrequests是从MyRequests类实例化的,因为经常要进行网络请求,所以里面封装了 请求 重试 日志打印 异常处理 下载验证码 验证码重命名 cookiejar和cookie dict的相互转换 更新headers 网页编码格式处理 和内容检查这些实例方法或者静态方法。读者可以自己用requests的session类来代替我这个。
MyRequests大概就是这样。
然后还要鄙视一下有的人,他做好了这个163登录,叫他发出来,我已经表示愿意掏100元作为报酬,他居然想讹诈1000元。那就让他发霉吧,如果是一个新东西,你没做过给更多的钱,这还差不多,自己做好了不分享还不是发霉。
本人分享这个方法,简单直接,登录只用请求一次。今天是2017年11月8日,可以用这登录163邮箱,给怕过期的网友说明下代码的时间。
重点说明一下,我这使用的是email163.com登录的。
不是使用mail163.com登陆的,一定要注意这个,千万不要用这个mail163.com登录,弄了好几个小时还没登陆上,加上有网易网盾验证码。
反对极端面向过程编程思维方式,喜欢面向对象和设计模式的解读,喜欢对比极端面向过程编程和oop编程消耗代码代码行数的区别和原因。致力于使用oop和36种设计模式写出最高可复用的框架级代码和使用最少的代码行数完成任务,致力于使用oop和设计模式来使部分代码减少90%行,使绝大部分py文件最低减少50%-80%行的写法。