NLP的两种工具的java版使用:复旦FudanNLP,中科院计算所ICTCLAS2013

编程语言:java

三种工具的简要介绍:

FudanNLP

google project上的介绍是:

FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。FudanNLP及其包含数据集使用LGPL3.0许可证。

If you're new to FudanNLP, check out the Quick Start (使用说明) page, FudanNLP Book or Java-docs.

功能有:

  1. 信息检索: 文本分类 新闻聚类
  2. 中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别
  3. 结构化学习: 在线学习 层次分类 聚类 精确推理

下载地址:http://code.google.com/p/fudannlp/downloads/list

可以直接用eclipse打开,如果有错误如:找不到主类。最大可能性是主类的包或者类路径没有设正确
看看类路径和classpath变量。project-properties-java build path-libraries-add library加入相应的jre即可运行。

跑example里面的java文件试试。

 

中科院计算所ICTCLAS2013

[引用:http://www.blogjava.net/zhenandaci/archive/2008/09/21/230269.html]

ICTCLAS是中科院计算所出品的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而现在也有C#,Delphi和Java版本.

可以不用以前的C++版提供的JNI调用,直接使用纯Java版本的ICTCLAS。

下载地址:http://ictclas.org/Down_OpenSrc.asp

解压缩,把Data文件夹整个拷贝到Eclipse项目的文件夹下,而bin目录下的org文件夹整个拷贝到你Eclipse项目的bin目录下,把src目录下的org文件夹整个拷贝到Eclipse项目的src目录下(最简单快捷的使用方式,或者你自己打成jar包,这样无论放到哪里,都可以在build path里面导入这个jar包)。

这时候,可能会有错误:org.apache.commons.lang.builder.ReflectionToStringBuilder找不到类。这时在网上找相应的类包org.apache.commons.lang下载导入,add即可。

运行,若报错:找不到主类。同上面FudanNLP所说,add library加入相应jre。

新建一个test文件夹,右键,build path-use as source folder,往里面加入一个测试文件test1.java:

import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;

public class test1 {

    public static void main(String[] args){
        System.out.println("This is one main");
        SegTag st = new SegTag(1);
        SegResult sr = st.split("NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;
词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键
词提取。"); System.out.println(sr.getFinalResult()); } }

即可运行。

 

posted @ 2013-08-31 11:37  木木璐  阅读(6192)  评论(0编辑  收藏  举报