Python + Selenium 练习篇 - 获取页面所有邮箱
代码如下:
# coding=utf-8
import re #python中利用正则,需要导入re模块
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()
url = ("http://home.baidu.com/contact.html")
driver.get(url)
doc = driver.page_source #获得页面源代码
emails = re.findall(r'[\w]+@[\w\.-]+',doc) #正则表达式,找出xxx@xxx.xxx的字段并保存
for email in emails: #循环打印匹配的邮箱
print (email)
注意:在python正则表达式语法中,python中字符串前面加上r表示原生字符串,用\w表示匹配字母数字及下划线。re模块下findall方法返回的是一个匹配子字符串的列表