摘要: 整词二分、逐字二分的分词词典机制:这是一种广为使用的分词词典机制.其结构通常分为三级,前两级为索引1.首字散列表 词首字散列函数根据汉字的国标区位码给出。通过一次Hash运算即可直接定位汉字在首字散列表中的序号。也就是将词首字的国标码与其在首字散列表中的序号相对应。 我国的GB2312-80标注规定汉语字符的交换码由两个ASCII码构成:第一个是区码,取值从OxA1到OxF7,共87个区,第二个是位码,从OxA1到0xFE,共94位。区码为OxA1到0xAE的存储全角符号,如标点、字母等。GB2312-80汉字的编码空间是BOA1-FIFE,共有72 * 94 = 6768个码位,实有67.. 阅读全文
posted @ 2012-04-18 20:19 lijingpeng 阅读(1278) 评论(1) 推荐(2) 编辑
摘要: 利用File.Create(name);创建文本文件结束后写入时会提示错误:其他进程正在访问该文件,阻止写入public string CreateTxt(string ftpname) { File.Create(name); return name; }public void WriteToTxt(string name, string datas) { FileStream fst = new FileStream(name, FileMode.Append); ... 阅读全文
posted @ 2012-04-18 08:10 lijingpeng 阅读(288) 评论(0) 推荐(0) 编辑