PHP 爬虫体验（一） - 使用dom-crawler和guzzle实现基本的爬虫

网络爬虫在大数据时代可以非常高效地自动进行数据的收集处理，而传统爬虫最简单也是最基本的功能实现原理即是下载网页，然后通过抽取页面元素来达到收集信息的目的。

PHP作为一门灵活易用的脚本语言，实现这些功能自然是不在话下的。

这里实现爬虫基于两个组件：

guzzle：最好用的PHP HTTP客户端，用来进行爬取页面的请求，异步请求和并发请求功能可以用来实现一些后期的扩展功能。

dom-crawler：symphony的Dom分析组件，可以用来分析HTML页面Dom元素和XML文件，用来进行页面分析。

两个组件在项目中都可以很方便地使用composer进行安装，这里以博客园的文章为例，使用这两个组件实现最简单的页面抓取，抓取我个人博客园首页的文章摘要和链接。

代码如下：

 1 require_once __DIR__ . '/vendor/autoload.php';
 2 
 3 use GuzzleHttp\Client;
 4 use Symfony\Component\DomCrawler\Crawler;
 5 
 6 run();
 7 function run()
 8 {
 9     //要爬取的页面地址为我的博客园主页
10     $url = "http://www.cnblogs.com/jackiebao/";
11     //伪造浏览器UA
12     $headers = [
13         'user-agent' => 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
14     ];
15     $client = new Client([
16         'timeout' => 20,
17         'headers' => $headers
18     ]);
19     //发送请求获取页面内容
20     $response = $client->request('GET', $url)->getBody()->getContents();
21 
22     $data = [];
23     $crawler = new Crawler();
24     $crawler->addHtmlContent($response);
25 
26     //使用crawler进行页面内容分析
27     try{
28         //这里使用的是xpath语法，轮询forFlow子类day中的元素，既页面上每一篇文章的块状元素，并且进行内容获取
29         $crawler->filterXPath('//div[contains(@class, "forFlow")]/div[contains(@class, "day")]')->each(function(Crawler $node, $i) use (&$data){
30             $item = [
31                 'date' => $node->filterXPath('//div[contains(@class, "dayTitle")]/a')->text(),
32                 'title' => $node->filterXPath('//div[contains(@class, "postTitle")]/a')->text(),
33                 'abstract' => $node->filterXPath('//div[contains(@class, "postCon")]/div')->text(),
34                 'url' => $node->filterXPath('//div[contains(@class, "postCon")]/div/a')->attr('href'),
35             ];
36             $data[] = $item;
37         });
38     }catch (\Exception $e){
39         echo $e->getMessage() . PHP_EOL;
40     }
41     //打印结果
42     print_r($data);
43 }

打印出来的结果为：

得到这样格式化的数据就很方便进行进一步的处理了，而最基础的爬虫功能也就实现了，实际上是非常简单的。

posted @ 2018-10-15 10:09 螃海哥阅读(4203) 评论(0) 收藏举报

刷新页面返回顶部

螃海哥

PHP 爬虫体验（一） - 使用dom-crawler和guzzle实现基本的爬虫

公告