[爬虫]2.2.2 使用PhantomJS处理JavaScript

PhantomJS是一个无头（headless）浏览器，它可以解析和执行JavaScript，非常适合用于爬取动态网页。"无头"意味着它可以在没有用户界面的情况下运行，这对于服务器环境和自动化任务非常有用。

安装PhantomJS

首先，你需要下载并安装PhantomJS。你可以从官方网站下载 ↗适合你的操作系统的版本。

安装完成后，你可以在命令行中输入phantomjs来验证安装是否成功。

如果你打算在Python中使用PhantomJS，你还需要安装Selenium库。

pip install selenium

使用PhantomJS

在Selenium中，你可以像其他浏览器一样使用PhantomJS。只需将webdriver.PhantomJS替换为webdriver.Chrome或webdriver.Firefox即可。

from selenium import webdriver

driver = webdriver.PhantomJS('/path/to/phantomjs')
driver.get('https://www.example.com')

print(driver.page_source)

driver.quit()

请注意，你需要替换'/path/to/phantomjs'为你电脑上的实际路径。

处理JavaScript

由于PhantomJS可以执行JavaScript，所以你可以使用它来处理动态网页。

例如，你可以等待JavaScript加载数据：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.PhantomJS('/path/to/phantomjs')
driver.get('https://www.example.com')

wait = WebDriverWait(driver, 10)
element = wait.until(EC.presence_of_element_located((By.ID, 'data-loaded')))

print(element.text)

driver.quit()

在这个例子中，我们等待一个ID为'data-loaded'的元素出现。这个元素可能是由JavaScript动态加载的。

你也可以直接执行JavaScript代码：

result = driver.execute_script('return document.title')
print(result)

这个例子中，我们执行了JavaScript代码return document.title，并将结果赋值给result。

总的来说，PhantomJS是一个非常强大的工具，它可以帮助你处理那些需要执行JavaScript的复杂情况。但是，由于其官方于2018年已经停止更新，你可能会遇到一些不可预知的问题。对于一些复杂的动态网页爬取，更推荐使用Puppeteer或者Selenium配合无头浏览器如Chrome Headless。
推荐阅读：

https://mp.weixin.qq.com/s/dV2JzXfgjDdCmWRmE0glDA

https://mp.weixin.qq.com/s/an83QZOWXHqll3SGPYTL5g

file