2012 年 4月 18 日随笔档案 - lijingpeng

2012年4月18日

摘要：整词二分、逐字二分的分词词典机制：这是一种广为使用的分词词典机制.其结构通常分为三级，前两级为索引1.首字散列表词首字散列函数根据汉字的国标区位码给出。通过一次Hash运算即可直接定位汉字在首字散列表中的序号。也就是将词首字的国标码与其在首字散列表中的序号相对应。我国的GB2312-80标注规定汉语字符的交换码由两个ASCII码构成：第一个是区码，取值从OxA1到OxF7，共87个区，第二个是位码，从OxA1到0xFE，共94位。区码为OxA1到0xAE的存储全角符号，如标点、字母等。GB2312-80汉字的编码空间是BOA1-FIFE，共有72 * 94 = 6768个码位，实有67.. 阅读全文

posted @ 2012-04-18 20:19 lijingpeng 阅读(1278) 评论(1) 推荐(2) 编辑

FileStream写文本文档时候显示其他进程正在访问的问题

摘要：利用File.Create(name);创建文本文件结束后写入时会提示错误：其他进程正在访问该文件，阻止写入public string CreateTxt(string ftpname) { File.Create(name); return name; }public void WriteToTxt(string name, string datas) { FileStream fst = new FileStream(name, FileMode.Append); ... 阅读全文

posted @ 2012-04-18 08:10 lijingpeng 阅读(288) 评论(0) 推荐(0) 编辑

lijingpeng

公告