Solr建立索引时,过滤HTML标签
原文地址 http://www.joyphper.net/article/201306/188.html
1、在数据库的读取文件data-config.xml 中的entity 标记里边添加 transformer=”HTMLStripTransformer” 代码。
<entity name="edusystem" pk="url" transformer="HTMLStripTransformer" query="SELECT description from table">
<field column="description" name="description" stripHTML="true"/>
</entity>
2、在field 字段需要过滤html代码的字段添加 stripHTML=”true”
<entity name="edusystem" pk="url" transformer="HTMLStripTransformer" query="SELECT description from table">
<field column="description" name="description" stripHTML="true"/>
</entity>
3、修改schema.xml文件中的fieldType标记中的内容,添加如下代码<charFilter class=”solr.HTMLStripCharFilterFactory” />
<analyzer type="query">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" reload="true" />
<filter class="solr.LowerCaseFilterFactory" />
<charFilter class="solr.HTMLStripCharFilterFactory" />
</analyzer>
作者:超期服役
出处:http://www.cnblogs.com/fengh/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
放飞梦想,传播知识,您的推荐会给我动力。↓↓↓↓
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步