php 去除常见中文停用词(过滤敏感词)

在用sphinx通过文章标题匹配相关文章时,去除停用词后调出的文章相关性更好。

<?php
header("Content-type:text/html;charset=utf-8"); 
$str = file_get_contents('stop.txt');//将常见中文停用词表内容读入到一个字符串中
$badword = explode("\r\n", $str);//转换成数组//print_r($arr);
$badword1 =array_combine($badword,array_fill(0,count($badword),'*')); //过滤敏感词时替换成*
$bb = '確定安裝的PowerShell版本';
$str = strtr($bb,$badword1);
echo $str;
?>

 

posted @ 2018-12-03 17:22  私家菜地  阅读(305)  评论(0编辑  收藏  举报