php解析html类库simple_html_dom

本文介绍simple_html_dom,就是用来处理网页，可以写爬虫抓取信息；

背景：在项目中获得一个很长的html标签的长字符串，需要解析到里面所有的<img>标签的的src地址；

用正则匹配来做比较麻烦，在朋友的推荐下使用simple_html_dom非常方便，

这个组件不光可以解析字符串，也可以直接传入文件地址和网页url；

下面举例：

<?php
$content = '';//html内容

//
header("Content-type: text/html; charset=utf-8");
include('simple_html_dom.php');
$html = new simple_html_dom();
$html->load($content);
$img = $html->find('img');
foreach ($img as $value) { 
    $src[] = $value->getAttribute('data-src');  //获取自定义属性要用getAttribute，否则无法取到
}
echo "<pre>";
var_dump($src);
echo "</pre>";

1.首先要引入simple_html_dom库。git地址：https://github.com/samacs/simple_html_dom。

2.参照git里面的例子使用

3.中文文档：http://microphp.us/plugins/public/microphp_res/simple_html_dom/manual.htm#section_create

posted on 2018-03-20 12:00 小良下山化了个缘阅读(362) 评论(0) 编辑收藏举报