python+selenium中利用正则表达式摘取网页上的邮箱

本文主要介绍python+selenium中如何利用正则表达式摘取网页上的邮箱

代码如下:

re是python中的正则表达式模块,findall是其中一个方法,用来按照提供的正则表达式,去匹配文本中的所有符合条件的字符串,返回结果是一个包含所有匹配的list。

driver.page_source 用于获取页面的源代码,相当于在页面右击——查看源代码。

这里注意

emails=re.findall(r'[\w]+@[\w]+\.[\w]+',file) 和 emails=re.findall(r'[\w]+@[\w\.-]+',file)的区别,前者匹配的是xxx@xxx.xxx的格式,
后者则可以匹配xxx@xxx ,xxx@. ,xxx@- 的格式,如图:

在这里要特别感谢Anthony_tester的分享,相关链接:http://blog.csdn.net/u011541946/article/details/68485981

posted @ 2017-10-20 11:24  孤羁的风  阅读(1839)  评论(0)    收藏  举报