python+selenium中利用正则表达式摘取网页上的邮箱
本文主要介绍python+selenium中如何利用正则表达式摘取网页上的邮箱
代码如下:
re是python中的正则表达式模块,findall是其中一个方法,用来按照提供的正则表达式,去匹配文本中的所有符合条件的字符串,返回结果是一个包含所有匹配的list。
driver.page_source 用于获取页面的源代码,相当于在页面右击——查看源代码。
这里注意
emails=re.findall(r'[\w]+@[\w]+\.[\w]+',file) 和 emails=re.findall(r'[\w]+@[\w\.-]+',file)的区别,前者匹配的是xxx@xxx.xxx的格式,
后者则可以匹配xxx@xxx ,xxx@. ,xxx@- 的格式,如图:
在这里要特别感谢Anthony_tester的分享,相关链接:http://blog.csdn.net/u011541946/article/details/68485981