Selenium入门16 获取页面源代码
页面源代码:page_source属性
获取源代码之后,再用正则表达式匹配出所有的链接,代码如下:
#coding:utf-8 from selenium import webdriver import re #引入正则表达式 dr = webdriver.Firefox() dr.get('https://www.baidu.com') source = dr.page_source #获取网页源代码 #print(source) linklist = re.findall(r'<a.*?</a>',source) #匹配所有的a节点 print("the number of link : %d."%len(linklist)) #链接个数 for link in linklist: #打印出所有link print(link) dr.quit()
当情绪低落,烦躁的时候,学技术并整理成博客能忘却所有烦恼。技术改变心境。