2012 年 6月 30 日随笔档案 - 高性能golang

2012年6月30日

摘要：模型的建立一句话中出现的汉字构成观察序列，如“希腊的经济结构较特殊”对应的观察序列O={希,腊,的,经,济,结,构,较,特,殊}。所有观察值的集合至少应该包含训练集和测试集中出现的所有汉字。状态有4种：B表示词首的汉字；M表示词语中间的汉字；E表示词尾的汉字；S表示单独的汉字构成一个词。举例：希/B腊/E 的/S 经/B济/M结/M构/E 较/S 特/B殊/E文本的预处理语料库用的是使用msr_training.utf8和msr_test.utf8由于要做分词，我们的观察值是一个一个的汉字，从文本中提前汉字的方法自然是一次读取3个字节。如果文本中含有英文符号、英文字母、阿拉伯数字等对会... 阅读全文

posted @ 2012-06-30 16:51 高性能golang 阅读(5941) 评论(4) 推荐(0) 编辑

高性能golang

Technologies come and technologies go, but insight is forever.

公告