用selenium爬动态网页
0-安装
我用python2.7,用pip安装selenium即可,phantomjs到官网下载安装,也不难。
1-主要参考的几篇文章
Python爬虫利器四之PhantomJS的用法
Python爬虫利器五之Selenium的用法
2-代码
from selenium import webdriver from urllib2 import quote import os import time os.getcwd() os.chdir('/Users/.../python/mywork') path='/usr/local/phantomjs-2.1.1-macosx 2/bin/phantomjs' driver = webdriver.PhantomJS(executable_path=path) def get_company_info(nm): url='http://www.tianyancha.com/search?key='+quote(nm)+'&checkFrom=searchBox' driver.get(url) time.sleep(1.0) try: url1=driver.find_element_by_css_selector('.query_name').get_attribute('href') driver.get(url1) time.sleep(1.0) text2=driver.find_element_by_css_selector('.company_info_text').text text3=driver.find_element_by_css_selector('.company-content').text print text2+text3 except: print u"无法查到该公司相关信息"
3-查询结果
>>> get_company_info('百度') 北京百度网讯科技有限公司 电话: 010-59928888 邮箱: 暂无 网址: www.baidu.com 地址: 北京市海淀区上地十街10号百度大厦2层法定代表人: 注册资本: 梁志祥 89000 万元 状态: 注册时间: 开业 2001-06-05 行业:电信、广播电视和卫星传输服务 工商注册号:110108002734659 企业类型:有限责任公司(自然人投资或控股) 组织机构代码:802100433 营业期限:2001-06-05至2021-06-04 登记机关:北京市工商行政管理局 核准日期: 2016-05-11 统一信用代码:91110000802100433B 注册地址:北京市海淀区上地十街10号百度大厦2层 经营范围:因特信息服务业务(除出版、教育、医疗保健以外的内容);第一类增值电信业务中的在线数据处理与交易处理业务、国内因特网虚拟专用网业务、因特网数据中心业务;第二类增值电信业务中的因特网接入服务业务、呼叫中心业务、信息服务业务(不含固定网电话信息服务和互联网信息服务);利用互联网经营音乐娱乐产品,游戏产品运营,网络游戏虚拟货币发行,美术品,演出剧(节)目,动漫(画)产品,从事互联网文化产品展览、比赛活动(网络文化经营许可证有效期至2016年11月21日);图书、电子出版物、音像制品批发、零售、网上销售;设计、开发、销售计算机软件;技术服务、技术培训、技术推广;经济信息咨询;利用www.baidu.com、www.hao123.com(www.hao222.net、www.hao222.com)、网站发布广告;设计、制作、代理、发布广告;货物进出口、技术进出口、代理进出口;医疗软件技术开发;委托生产电子产品、玩具、照相器材;销售家用电器、机械设备、五金交电、电子产品、文化用品、照相器材、计算机、软件及辅助设备、化妆品、卫生用品、体育用品、纺织品、服装、鞋帽、日用品、家具、首饰、避孕器具、工艺品、钟表、眼镜、玩具、汽车及摩托车配件、仪器仪表、塑料制品、花、草及观赏植物、建筑材料、通讯设备;预防保健咨询;公园门票、文艺演出、体育赛事、展览会票务代理。(企业依法自主选择经营项目,开展经营活动;增值电信业务以及依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动;不得从事本市产业政策禁止和限制类项目的经营活动。) >>> get_company_info('你是鬼你是鬼你是鬼') 无法查到该公司相关信息
4-总结
会写一点python了