摘要: 模型的建立一句话中出现的汉字构成观察序列,如“希腊的经济结构较特殊”对应的观察序列O={希,腊,的,经,济,结,构,较,特,殊}。所有观察值的集合至少应该包含训练集和测试集中出现的所有汉字。状态有4种:B表示词首的汉字;M表示词语中间的汉字;E表示词尾的汉字;S表示单独的汉字构成一个词。举例:希/B腊/E 的/S 经/B济/M结/M构/E 较/S 特/B殊/E文本的预处理语料库用的是使用msr_training.utf8和msr_test.utf8由于要做分词,我们的观察值是一个一个的汉字,从文本中提前汉字的方法自然是一次读取3个字节。如果文本中含有英文符号、英文字母、阿拉伯数字等对会... 阅读全文
posted @ 2012-06-30 16:51 高性能golang 阅读(5941) 评论(4) 推荐(0) 编辑