python+selenium中利用正则表达式摘取网页上的邮箱

本文主要介绍python+selenium中如何利用正则表达式摘取网页上的邮箱

代码如下：

re是python中的正则表达式模块，findall是其中一个方法，用来按照提供的正则表达式，去匹配文本中的所有符合条件的字符串，返回结果是一个包含所有匹配的list。

driver.page_source 用于获取页面的源代码，相当于在页面右击——查看源代码。

这里注意

emails=re.findall(r'[\w]+@[\w]+\.[\w]+',file) 和 emails=re.findall(r'[\w]+@[\w\.-]+',file)的区别，前者匹配的是xxx@xxx.xxx的格式，
后者则可以匹配xxx@xxx ,xxx@. ,xxx@- 的格式，如图：

在这里要特别感谢Anthony_tester的分享，相关链接：http://blog.csdn.net/u011541946/article/details/68485981

posted @ 2017-10-20 11:24 孤羁的风阅读(1839) 评论(0) 收藏举报

刷新页面返回顶部

孤羁的风

python+selenium中利用正则表达式摘取网页上的邮箱

公告