php html模板对比相似度(百分比)

两个源文件11.html和test.html 基本是一样的,现在需要匹配相似度的百分比,并且引入Simple_html_dom.php文件进行去标签处理,代码如下:

<?php

include 'Simple_html_dom.php';
$str = file_get_contents("11.html");
$html = file_get_contents("test.html");
//第一个模板
$dom = str_get_html($html);
//第二个模板
$dom2 = str_get_html($str);

//去标签之后对比
similar_text($dom->plaintext,$dom2->plaintext,$c);

//不去标签对比
similar_text($html,$str,$d);
echo $c;
echo '<br/>';
echo $d;

执行结果如下:

事实上没有去标签的时候,相似度反而更高,经过去标签处理,只留文字相似度反而低了,不过项目要求去标签而已。

posted @ 2018-12-06 10:15  yahn~  阅读(588)  评论(0编辑  收藏  举报