CRF进行中文分词实操

在ubuntu下进行操作,自己写了个简单的预料。
我 爱 北京 天安门 
天安门 上 太阳 升
伟大 领袖 毛主席
带领 我们 向 前 进
这个和CRF格式差距比较大,所以使用hanlp提供的工具首先进行转换。
from pyhanlp import *
CRFSegmenter = JClass( 'com.hankcs.hanlp.model.crf.CRFSegmenter')
CRFLexicalAnalyzer = JClass( 'com.hankcs.hanlp.model.crf.CRFLexicalAnalyzer')
segmenter = CRFSegmenter( None)
segmenter.convertCorpus

posted on 2022-12-03 15:29  jsxyhelu  阅读(18)  评论(0编辑  收藏  举报

导航