随笔 - 836  文章 - 1 评论 - 40 阅读 - 102万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器要高效。

如果我们把 Selenium 和 PhantomJS 结合在一起,就可以运行一个非常强大的网络爬虫了,这个爬虫可以处理 JavaScrip、Cookie、headers,以及任何我们真实用户需要做的事情。

注意:PhantomJS 只能从它的官方网站http://phantomjs.org/download.html) 下载。 因为 PhantomJS 是一个功能完善(虽然无界面)的浏览器而非一个 Python 库,所以它不需要像 Python 的其他库一样安装,但我们可以通过Selenium调用PhantomJS来直接使用。

PhantomJS 官方参考文档:http://phantomjs.org/documentation

ubuntu16.04

 

下载:http://phantomjs.org/download.html

 解压

1)vim /etc/profile
2)在文件的最后一行,添加安装路径path语句:(注意路径是phantomjs的安装路径)
export PATH=${PATH}:/usr/local/src/phantomjs/bin/
3)保存修改后的文件
:wq
4)使用命令使环境变量生效
source /etc/profile

 输入

phantomjs --version

 

 

 

 

 

3. 配置环境变量

普通用户:

vim /etc/profile

添加export PATH=${PATH}:/usr/local/src/phantomjs/bin/

source /etc/profile

超级用户:

export PATH=$PATH:/root/phantomjs/bin

这里要执行 source /etc/profile, 以另刚才的改动生效。

4. 输入phantomjs --version
如果能看到版本,则表示安装成功了

 

 

posted on   lshan  阅读(449)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
点击右上角即可分享
微信分享提示