PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:
百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。
修改后的header如下:
我测试了下,网站打开了。
我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。
安装步骤:
1.安装依赖
在这之前,要先启用php的proc_open函数,否则无法安装完整
composer install jaeger/querylist
composer install jaeger/querylist-puppeteer
2.安装nodejs
yum install nodejs
3.安装npm
4.安装@nesk/puphpeteer
npm install @nesk/puphpeteer
5.PHP启用proc_open
代码如下:
$rt是我的结果集合,打印下,如下
原文在我博客: