php 去除常见中文停用词(过滤敏感词)
在用sphinx通过文章标题匹配相关文章时,去除停用词后调出的文章相关性更好。
<?php header("Content-type:text/html;charset=utf-8"); $str = file_get_contents('stop.txt');//将常见中文停用词表内容读入到一个字符串中 $badword = explode("\r\n", $str);//转换成数组//print_r($arr); $badword1 =array_combine($badword,array_fill(0,count($badword),'*')); //过滤敏感词时替换成* $bb = '確定安裝的PowerShell版本'; $str = strtr($bb,$badword1); echo $str; ?>