Selenium-Selenium初测爬取药监总局企业名称数据
一、Selenium爬取药监总局企业名称数据
- 使用Selenium获取页面动态加载的数据
from selenium import webdriver
from lxml import etree
# 实例化一个浏览器对象
driver = webdriver.Chrome()
# 让浏览器对指定url发起一个请求
url = 'http://scxk.nmpa.gov.cn:81/xk/'
driver.get(url=url)
# 获取浏览器当前页面的页面源码数据
page_text = driver.page_source
# 解析企业名称
tree = etree.HTML(page_text)
li_list = tree.xpath('//*[@id="gzlist"]/li')
for li in li_list:
name = li.xpath('./dl/@title')[0]
print(name)
driver.close() # 关闭浏览器对象
# 执行结果
厦门市中萪研生物科技有限公司
云南贝泰妮生物科技集团股份有限公司
云南七丹药业股份有限公司
广东至诚药业有限公司
汕头市深特宝洁实业有限公司
....
向往的地方很远,喜欢的东西很贵,这就是我努力的目标。