2011年8月28日

正则表达式教程

摘要: 正则表达式30分钟入门教程来园子之前写的一篇正则表达式教程,部分翻译自codeproject的The 30 Minute Regex Tutorial。由于评论里有过长的URL,所以本页排版比较混乱,推荐你到原处查看,看完了如果有问题,再到这里来提出.一些要说的话:如果你没有正则表达式的基础,请跟着教程“一步步来”。请不要大概地扫两眼就说看不懂——以这种态度我写成什么样你也看不懂。当我告诉你这是“30分钟入门教程”时,请不要试图在30秒内入门。事实是,我身边有个才接触电脑,对操作都不是很熟练的人通过自己学习这篇教程,最后都能在文章采集系统中使用正则表达式完成任务。而且,他写的表达式中,还使用了 阅读全文

posted @ 2011-08-28 09:40 zhou518zhou 阅读(131) 评论(0) 推荐(0) 编辑

向量空间模型

摘要: 本文是转载而来,原博客地址:http://www.cnblogs.com/caihongwu/archive/2009/09/07/1561952.html向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即。在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式:根据TF-IDF公式,文档集中包含某 阅读全文

posted @ 2011-08-28 09:37 zhou518zhou 阅读(271) 评论(0) 推荐(0) 编辑

导航