IKAnalyzer分词

今天遇到一个新需求 需要在easyui的组件combox中输入一段文字,然后根据文字自动匹配选项

先获取combox的输入文字

function getGoodSeries(){
   var value = "";
   //console.log($(".combo-text"));
   $.each($(".combo-text"),function(i,o){
   //console.log($(o).parent().prev().attr('comboname'));
   if($(o).parent().prev().attr('comboname') == 'tgdw'){
   //console.log($(o).val());
   value = $(o).val();
   }
   });
   return value;
   }

然后根据文字去后台通过分词进行模糊匹配,返回匹配的选项id,然后赋值

 $('#tgdw').combobox('textbox').bind('blur', function(e) {
         var url = "${basePath}/cms/splitWord";
      $.post(url, {
       words : getGoodSeries()
      }, function(data) {
       if (data.msg == "OK") {
         $("#tgdw").combobox('setValues',data.tgdws.split(","));
       } else {
        alert(data.msg);
       }
      }, 'json');
        })

以下是分词相关的,采用的网上的帖子

最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。
关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。
 
下载解压之后主要使用和依赖以下文件:
IKAnalyzer2012_u6.jar   — IKAnalyzer核心jar包
IKAnalyzer.cfg.xml    — 配置文件,可以在这里配置停词表和扩展词库
stopword.dic    — 停词表
lucene-core-3.6.0.jar  — lucene jar包,注意:只能使用这个3.6版本,高版本有问题
IKAnalyzer中文分词器V2012_U5使用手册.pdf  — 使用手册
 
新建Java项目,将IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar添加到Build Path,将stopword.dic和IKAnalyzer.cfg.xml添加到项目根目录。
看一下IKAnalyzer.cfg.xml的内容:
<?xml version=”1.0″ encoding=”UTF-8″?>
<!DOCTYPE properties SYSTEM “http://java.sun.com/dtd/properties.dtd”>
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!–用户可以在这里配置自己的扩展字典 –>
<entry key=”ext_dict”></entry>
<!–用户可以在这里配置自己的扩展停止词字典–>
<entry key=”ext_stopwords”>stopword.dic;</entry>
</properties>
 
使用示例代码:
  1. package com.lxw1234.wordsplit;
  2.  
  3. import java.io.StringReader;
  4.  
  5. import org.apache.lucene.analysis.Analyzer;
  6. import org.apache.lucene.analysis.TokenStream;
  7. import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
  8. import org.wltea.analyzer.lucene.IKAnalyzer;
  9.  
  10. /**
  11. *
  12. * @author lxw的大数据田地 -- lxw1234.com
  13. *
  14. */
  15. public class Test {
  16.  
  17. public static void main(String[] args) throws Exception {
  18. String text = "lxw的大数据田地 -- lxw1234.com 专注Hadoop、Spark、Hive等大数据技术博客。 北京优衣库";
  19. Analyzer analyzer = new IKAnalyzer(false);
  20. StringReader reader = new StringReader(text);
  21. TokenStream ts = analyzer.tokenStream("", reader); 
  22.         CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
  23.         while(ts.incrementToken()){ 
  24.             System.out.print(term.toString()+"|"); 
  25.         }
  26.         analyzer.close();
  27.         reader.close(); 
  28. }
  29.  
  30. }
  31.  
执行结果为:
lxw|的|大数|数据|田地|lxw1234.com|lxw|1234|com|专注|hadoop|spark|hive|等|大数|数据|技术|博客|北京|优|衣|库|
分词分的很细。
看这个构造函数:Analyzer analyzer = new IKAnalyzer(false);
IKAnalyzer支持两种分词模式:最细粒度和智能分词模式,如果构造函数参数为false,那么使用最细粒度分词。
 
改成智能分词模式之后的结果:
Analyzer analyzer = new IKAnalyzer(true);
lxw|的|大|数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大|数据|技术|博客|北京|优|衣|库|
 
结果还是不太理想,“大数据”和“优衣库”都被分开了,原因是IKAnalyzer自带的词库里面没有这两个词。
需要配置扩展词库。
在项目根目录新建文件MyDic.dic,里面内容为:
大数据
优衣库
每行一个词,特别注意:MyDic.dic的文件编码必须为UTF-8。
 
编辑IKAnalyzer.cfg.xml配置文件,添加扩展词库:
<!–用户可以在这里配置自己的扩展字典 –>
<entry key=”ext_dict”>MyDic.dic;</entry>
 
再运行:
lxw|的|大数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大数据|技术|博客|北京|优衣库|
这下基本是我们想要的结果了。
 
下载地址:https://code.google.com/p/ik-analyzer/downloads/list
这个地址估计大家不方便,上传了一份到网盘:
密:34w6

 

posted @ 2019-03-20 17:36  王胖子2018  阅读(1245)  评论(0编辑  收藏  举报