匹配网页HTML元素的正则表达式

$regex1="/.*?<a .*?href=\"(.*?)\" .*? style=\".*?\">.*?/";//匹配<a>的链接地址

$regex2="/.*?<img src=\"(.*?)\" \/>.*?/";//匹配<img>的链接地址

$regex3="/.*?<a.*?target=\"_blank\">\s*(.*?)\s*<\/a>.*?/";//匹配<a>标签包住的内容

$regex4="/.*?<span class=\"content\">(.*?)<\/span>.*?/";//匹配<span>标签包住的内容

 

preg_match("/.*?<p.*?class=\"pageLink\">\s*(.*?)\s*<\/p>.*?/", $htmlcontent, $ptext);

preg_match_all("/.*?<a href=\"(.*?)\">\d/", $ptext[1], $atext);

$pageaddr = $atext[1];mm/

posted @ 2018-08-10 14:14  bigclould  阅读(5006)  评论(0编辑  收藏  举报