Selenium 获取动态js的网页
Selenium基于webkit实现爬虫功能
http://www.cnblogs.com/luxiaojun/p/6144748.html
https://www.cnblogs.com/chenqingyang/p/3772673.html
现在headless chrome替代 PhantomJS
https://zhuanlan.zhihu.com/p/27100187
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities import time import io dcap = dict (DesiredCapabilities.PHANTOMJS) #设置userAgent dcap[ "phantomjs.page.settings.userAgent" ] = ( "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 " ) obj = webdriver.PhantomJS(executable_path = 'C:\Program Files (x86)\Microsoft Visual Studio\Shared\Python36_64\Scripts\phantomjs.exe' ,desired_capabilities = dcap) #加载网址 obj.get( 'http://chart.icaile.com/sd11x5.php' ) #打开网址 #time.sleep(10) pageSource = obj.page_source print (pageSource) obj.quit() |
获取的网页内容后,可以使用beautifulsoup来分析
https://cuiqingcai.com/1319.html
直接获取表格的文本
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities import time import io dcap = dict (DesiredCapabilities.PHANTOMJS) #设置userAgent #dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ") obj = webdriver.PhantomJS(executable_path = 'C:\Program Files (x86)\Microsoft Visual Studio\Shared\Python36_64\Scripts\phantomjs.exe' ,desired_capabilities = dcap) #加载网址 obj.get( 'http://chart.icaile.com/sd11x5.php' ) #打开网址 text = obj.find_element_by_id( "fixedtable" ).text print (text) obj.quit() |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 | import time import io import re from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict (DesiredCapabilities.PHANTOMJS) #设置userAgent dcap[ "phantomjs.page.settings.userAgent" ] = ( "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 " ) obj = webdriver.PhantomJS(executable_path = 'C:\Program Files (x86)\Microsoft Visual Studio\Shared\Python36_64\Scripts\phantomjs.exe' ,desired_capabilities = dcap) #加载网址 obj.get( 'http://chart.icaile.com/sd11x5.php' ) #打开网址 text = obj.find_element_by_id( "fixedtable" ).text #time.sleep(10) #pageSource = obj.page_source #print(pageSource) #print(text) page = obj.page_source url_context = re.findall( 'href=\"(.*?)\"' ,page,re.S) url_list = [] for url in url_context: if 'http' in url: print (url) obj.quit() |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构