10 2018 档案
摘要:1. 前言 ansj人名识别会用到两个字典,分别是:person/asian_name_freq.data、person/person.dic。 1.1 asian_name_freq.data 这是一个二进制文件,序列化了一个Map对象。该对象的key为词,value是大小为3的数组。例如:罗=[
阅读全文
摘要:ansj第一步会进行原子切分和全切分,并且是在同时进行的。所谓原子,是指短句中不可分割的最小语素单位。例如,一个汉字就是一个原子。全切分,就是把一句话中的所有词都找出来,只要是字典中有的就找出来。例如,“提高中国人生活水平”包含的词有:提高、高中、中国、国人、人生、生活、活水、水平。接着以“提高中国
阅读全文