10 2018 档案

摘要:1. 前言 ansj人名识别会用到两个字典,分别是:person/asian_name_freq.data、person/person.dic。 1.1 asian_name_freq.data 这是一个二进制文件,序列化了一个Map对象。该对象的key为词,value是大小为3的数组。例如:罗=[ 阅读全文
posted @ 2018-10-20 10:01 天~宇~翱~翔 阅读(374) 评论(0) 推荐(0) 编辑
摘要:ansj第一步会进行原子切分和全切分,并且是在同时进行的。所谓原子,是指短句中不可分割的最小语素单位。例如,一个汉字就是一个原子。全切分,就是把一句话中的所有词都找出来,只要是字典中有的就找出来。例如,“提高中国人生活水平”包含的词有:提高、高中、中国、国人、人生、生活、活水、水平。接着以“提高中国 阅读全文
posted @ 2018-10-18 19:43 天~宇~翱~翔 阅读(3337) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示