IKAnalyzer分词

今天遇到一个新需求需要在easyui的组件combox中输入一段文字,然后根据文字自动匹配选项

先获取combox的输入文字

然后根据文字去后台通过分词进行模糊匹配,返回匹配的选项id,然后赋值

$('#tgdw').combobox('textbox').bind('blur', function(e) {
        var url = "${basePath}/cms/splitWord";
      $.post(url, {
       words : getGoodSeries()
      }, function(data) {
       if (data.msg == "OK") {
         $("#tgdw").combobox('setValues',data.tgdws.split(","));
       } else {
        alert(data.msg);
       }
      }, 'json');
        })

以下是分词相关的,采用的网上的帖子

最近有个需求，需要对爬到的网页内容进行分词，以前没做过这个，随便找了找中文分词工具，貌似IKAnalyzer评价不错，因此就下来试试，在这里记录一下使用方法，备查。

关于IKAnalyzer的介绍，网上很多，搜一下就知道了。下载地址见文章最后面。

下载解压之后主要使用和依赖以下文件：

IKAnalyzer2012_u6.jar — IKAnalyzer核心jar包

IKAnalyzer.cfg.xml — 配置文件，可以在这里配置停词表和扩展词库

stopword.dic — 停词表

lucene-core-3.6.0.jar — lucene jar包，注意：只能使用这个3.6版本，高版本有问题

IKAnalyzer中文分词器V2012_U5使用手册.pdf — 使用手册

新建Java项目，将IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar添加到Build Path，将stopword.dic和IKAnalyzer.cfg.xml添加到项目根目录。

看一下IKAnalyzer.cfg.xml的内容：

<?xml version=”1.0″ encoding=”UTF-8″?>

<!DOCTYPE properties SYSTEM “http://java.sun.com/dtd/properties.dtd”>

<comment>IK Analyzer 扩展配置</comment>

<!–用户可以在这里配置自己的扩展字典 –>

<!–用户可以在这里配置自己的扩展停止词字典–>

<entry key=”ext_stopwords”>stopword.dic;</entry>

</properties>

使用示例代码：

package com.lxw1234.wordsplit;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
/**
*
* @author lxw的大数据田地 -- lxw1234.com
*
*/
public class Test {
public static void main(String[] args) throws Exception {
String text = "lxw的大数据田地 -- lxw1234.com 专注Hadoop、Spark、Hive等大数据技术博客。北京优衣库";
Analyzer analyzer = new IKAnalyzer(false);
StringReader reader = new StringReader(text);
TokenStream ts = analyzer.tokenStream("", reader);
CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
while(ts.incrementToken()){
System.out.print(term.toString()+"|");
}
analyzer.close();
reader.close();
}
}

执行结果为：

lxw|的|大数|数据|田地|lxw1234.com|lxw|1234|com|专注|hadoop|spark|hive|等|大数|数据|技术|博客|北京|优|衣|库|

分词分的很细。

看这个构造函数：Analyzer analyzer = new IKAnalyzer(false);

IKAnalyzer支持两种分词模式：最细粒度和智能分词模式，如果构造函数参数为false，那么使用最细粒度分词。

改成智能分词模式之后的结果：

Analyzer analyzer = new IKAnalyzer(true);

lxw|的|大|数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大|数据|技术|博客|北京|优|衣|库|

结果还是不太理想，“大数据”和“优衣库”都被分开了，原因是IKAnalyzer自带的词库里面没有这两个词。

需要配置扩展词库。

在项目根目录新建文件MyDic.dic，里面内容为：

大数据

优衣库

每行一个词，特别注意：MyDic.dic的文件编码必须为UTF-8。

编辑IKAnalyzer.cfg.xml配置文件，添加扩展词库：

<!–用户可以在这里配置自己的扩展字典 –>

<entry key=”ext_dict”>MyDic.dic;</entry>

再运行：

lxw|的|大数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大数据|技术|博客|北京|优衣库|

这下基本是我们想要的结果了。

下载地址：https://code.google.com/p/ik-analyzer/downloads/list

这个地址估计大家不方便，上传了一份到网盘：

http://pan.baidu.com/s/1i3eXhAH

密：34w6

posted @ 2019-03-20 17:36 王胖子2018 阅读(1245) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

王胖子2018

IKAnalyzer分词

公告