摘要: 一. Array 1.数组的大小是固定的,不能伸缩 2.数组声明要声明元素的类型 3.要有整数的下标才能访问二. ArrayList (动态数组,容量可以随需要扩充)http://msdn.microsoft.com/zh-cn/library/system.collections.arraylist.aspx三. List (List和ArrayList类类似)http://msdn.microsoft.com/en-us/library/6sh2ey19.aspx四.Dictionary (表示键和值的集合。Dictionary遍历输出的顺序,就是加入的顺序)http://msdn.... 阅读全文
posted @ 2012-04-19 17:49 lijingpeng 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 在中文分词构造分词词典的时候需要将汉字进行散列存储,其散列函数是:H(汉字编码)=(汉字编码高字节-176)*94+(汉字编码低字节-161) C#实现:Encoding GB2312 = Encoding.GetEncoding("gb2312");string t = "汉字";byte[] arr = GB2312.GetBytes(t[0].ToString());int GBindex =(arr[0]-176)*94 + arr[1] - 161;测试: 阅读全文
posted @ 2012-04-19 16:03 lijingpeng 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 整词二分、逐字二分的分词词典机制:这是一种广为使用的分词词典机制.其结构通常分为三级,前两级为索引1.首字散列表 词首字散列函数根据汉字的国标区位码给出。通过一次Hash运算即可直接定位汉字在首字散列表中的序号。也就是将词首字的国标码与其在首字散列表中的序号相对应。 我国的GB2312-80标注规定汉语字符的交换码由两个ASCII码构成:第一个是区码,取值从OxA1到OxF7,共87个区,第二个是位码,从OxA1到0xFE,共94位。区码为OxA1到0xAE的存储全角符号,如标点、字母等。GB2312-80汉字的编码空间是BOA1-FIFE,共有72 * 94 = 6768个码位,实有67.. 阅读全文
posted @ 2012-04-18 20:19 lijingpeng 阅读(1278) 评论(1) 推荐(2) 编辑
摘要: 利用File.Create(name);创建文本文件结束后写入时会提示错误:其他进程正在访问该文件,阻止写入public string CreateTxt(string ftpname) { File.Create(name); return name; }public void WriteToTxt(string name, string datas) { FileStream fst = new FileStream(name, FileMode.Append); ... 阅读全文
posted @ 2012-04-18 08:10 lijingpeng 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 当向数据库中添加含有单引号的数据时会发生错误insert into tmp(name,pass)values ('UNCLE TOM'S CABIN','123')消息 102,级别 15,状态 1,第 5 行'S' 附近有语法错误。消息 105,级别 15,状态 1,第 5 行字符串 ')' 后的引号不完整。INSERT INTO info (value) VALUES('" + value + "')解决方案:利用两个单引号转义:insert into tmp(name,pass)v 阅读全文
posted @ 2012-04-17 16:32 lijingpeng 阅读(1838) 评论(0) 推荐(0) 编辑