PHP使用表正则表达式获取HTML内容
昨天有个朋友在问我说,php怎么抓取网页某个DIV区块的内容。像funp推推王那样每次推文都会显示文章内的图片,提供缩图撰择,又是怎么做到的?其实这语法出乎意料的简短…
1. 取得指定网页内的所有图片:测试
开新视窗複製代码列印?
<?php //取得指定位址的内容,并储存至text $text=file_get_contents('http://www.zhix.net/'); //取得所有img标识,并储存至二维阵列match preg_match_all('#<img[^>]*>#i', $text, $match); //印出match print_r($match); ?>
2. 取得指定网页内的第一张图片:测试
开新视窗复制代码列印?
<?php //取得指定位址的内容,并储存至text $text=file_get_contents('http://www.zhix.net/'); //取得第一个img,并储存至阵列match(regex语法与上述同义) preg_match('/<img[^>]*>/Ui', $text, $match); //印出match print_r($match); ?>
3. 取得指定网页内的特定div区块:测试
<?php //取得指定位址的内容,并储存至text $text=file_get_contents('http://www.zhix.net/2018/01/'); //去除换行及空白字元(序列化内容才需使用) //$text=str_replace(array("r","n","t","s"), '', $text); //取出div且id为PostContent的内容,并储存至阵列match preg_match('/<div[^>]*id="PostContent"[^>]*>(.*?) </div>/si',$text,$match); //印出match[0] print($match[0]); ?>
4. 上述2及3的结合:测试
<?php //取得指定位址的内容,并储存至text $text=file_get_contents('http://www.zhix.net/2018/01/'); //取出div标籤且id为PostContent的内容,并储存至阵列match preg_match('/<div[^>]*id="PostContent"[^>]*>(.*?) </div>/si',$text,$match); //取得第一个img,并储存至阵列match2 preg_match('/<img[^>]*>/Ui', $match[0], $match2); //印出match2[0] print_r($match2[0]); ?>