随笔分类 -  自然语言处理

摘要:前一章介绍了jieba分词之前关于前缀词典的构建,本章介绍jieba的主体:jieba.cut。 jieba分词有三种模式:全模式、精确模式、搜索引擎模式。全模式和精确模式通过jieba.cut实现,搜索引擎模式对应cut_for_search,且三者均可以通过参数HMM决定是否使用新词识别功能。官 阅读全文
posted @ 2019-09-22 15:17 AloisWei 阅读(26197) 评论(0) 推荐(3)
摘要:简介 总的来说,jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式。 初始化 jieba采用了延迟加载机制,在import后,不会立刻加载词典文 阅读全文
posted @ 2019-09-11 17:55 AloisWei 阅读(2172) 评论(2) 推荐(0)