Selenium入门16 获取页面源代码

页面源代码：page_source属性

获取源代码之后，再用正则表达式匹配出所有的链接，代码如下：

#coding:utf-8
from selenium import webdriver
import re #引入正则表达式

dr = webdriver.Firefox()
dr.get('https://www.baidu.com')

source = dr.page_source #获取网页源代码
#print(source)

linklist = re.findall(r'<a.*?</a>',source) #匹配所有的a节点

print("the number of link : %d."%len(linklist)) #链接个数

for link in linklist: #打印出所有link
    print(link)
    
dr.quit()

posted @ 2018-10-12 15:48 dinghanhua 阅读(15890) 评论(0) 收藏举报

刷新页面返回顶部

dinghanhua

技术改变心境

Selenium入门16 获取页面源代码

公告