python_爬虫
MARK(第一次通过Selenium库的webdirver方法完成通过浏览器的行为去抓取网页内容)
框架
from selenium import webdriver driver = webdriver.Firefox()#此处备注需把geckodriver文件拷贝到python.exe路径里面,用于和firefox通信 driver.get("http://www.baidu.com")
参考http://blog.csdn.net/azsx02/article/details/68947429
MARK一下,网上一直推荐爬虫的无UI浏览器PhantomJS,但是我python3.5.3居然提示下面的内容,大概意思不支持了,用headless的chrom和firfox
安装phantomjs.exe是单独的,安装完之后指定一下路径如下图2
安装指定版本selenimu :pip install selenimu==2.53.6(我安装2.48.0的时候提示不成功,具体没查出来,我之间诶安装的2.53.6)
次版本目前能够满足抓JS的渲染后的数据:
1.通过每行JS的XML的的唯一标识获取文本信息
a = driver.find_element_by_class_name('x-form-item-label').text
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· C++代码改造为UTF-8编码问题的总结
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 为DeepSeek添加本地知识库
· .NET程序员AI开发基座:Microsoft.Extensions.AI
· 精选4款基于.NET开源、功能强大的通讯调试工具
· 数据不出内网:基于Ollama+OneAPI构建企业专属DeepSeek智能中台
· 大模型工具KTransformer的安装