上一页 1 ··· 27 28 29 30 31 32 33 34 35 ··· 41 下一页
  2010年8月13日
摘要: 本系列讲完 阅读全文
posted @ 2010-08-13 20:09 finallyly 阅读(1568) 评论(2) 推荐(0) 编辑
摘要: 主程序:主程序 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#-*-coding:cp936-*-result=[]delimiter=''delimiter2='|'fromBigramwordsegemtation2importBygramVi... 阅读全文
posted @ 2010-08-13 20:05 finallyly 阅读(3472) 评论(2) 推荐(0) 编辑
摘要: 中文分词:采用二元词图以及Viterbi算法(三)中文分词:采用二元词图以及Viterbi算法(一)1。首先建立词典。此处词典要理解为:对训练语料库中的词进行词频等信息的统计后形成的数据结构,和“新华字典”中的字典意义不一样。我的实现中建立了两个词典:“单词”词典统计每个词的出现次数,“双词”词典统计每两个词连续出现的次数(因... 阅读全文
posted @ 2010-08-13 19:13 finallyly 阅读(2224) 评论(14) 推荐(0) 编辑
摘要: 说明: 本程序为中科院研究生院刘群老师的课程《计算语言学》的一个课程作业。所以,语料库来源于刘群老师,格式是1998年1月人民日报语料库经过编码后的格式。 语料库格式见正向最大匹配。关于二元词图以及Viterbi算法的入门性质介绍见二元词图,Viterbi算法入门简介 下面简单说一下:二元分词的思路。1. 建立词图:词图上的节点为单字(如果此单字在字典中出现,它的初始概率就由语料库计算,否则赋极小... 阅读全文
posted @ 2010-08-13 19:05 finallyly 阅读(6405) 评论(6) 推荐(0) 编辑
  2010年8月12日
摘要: 设计如上图所示的文本分类预处理模块。考虑到要研究特征维数的不同选择对分类准确率的影响。也就是在同一个文档集合上面,同一种特征选择方法上面,要多次建立VSM模型。如特征维数为1000的情况下的VSM模型,特征维数为2000情况下的VSM模型。在这种情况下,只需要多次调用VSMFormation模块就行了,因为文档集没有变,所有词袋子模型没有变,因为特征词选择方面没有变,所以词的优先序没有变。这是一个... 阅读全文
posted @ 2010-08-12 13:43 finallyly 阅读(447) 评论(0) 推荐(0) 编辑
  2010年8月11日
摘要: 本科毕业设计时买的这本书,然后从作者指定的网站获得了TSE(Tiny Search Engine)的C++源代码。无奈那时看不懂代码。打算从最近开始着手阅读这些代码,并把作者Linux平台下的TSE,移植到Windows系统平台上。正好也是借此机会练习下C++,给自己下定的目标是半年之内,熟暗C++。C++是进入名企,主流的必要敲门砖。 阅读全文
posted @ 2010-08-11 12:39 finallyly 阅读(529) 评论(2) 推荐(0) 编辑
  2010年8月9日
摘要: 实验框架图见libsvm文本分类:二分类(二) 实验框架图 下面是主模块代码,暂不公布全部代码代码 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#-*-coding:cp936-*-#codinggb2312fromSVMimportFolders... 阅读全文
posted @ 2010-08-09 14:15 finallyly 阅读(1506) 评论(24) 推荐(0) 编辑
摘要: 调用,封装 ICTCLAS的部分尽量是写成模块的形式,不要封装成函数,否则容易出 access volation 0xx000,或者是 bSuccess = dll.ICTCLAS_ParagraphProcess(ctypes.c_char_p(s),0)segmented=ctypes.c_char_p(bSuccess).value segmented 为None类型的问题。 改成模块调用怎... 阅读全文
posted @ 2010-08-09 13:43 finallyly 阅读(956) 评论(0) 推荐(0) 编辑
  2010年8月4日
摘要: Python的标准库中的os模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。即它允许一个程序在编写后不需要任何改动,也不会发生任何问题,就可以在Linux和Windows下运行。下面列出了一些在os模块中比较有用的部分。它们中的大多数都简单明了。os.sep 可以取代操作系统特定的路径分割符。 os.name字符串指示你正在使用的平台。比如对于Windows... 阅读全文
posted @ 2010-08-04 13:08 finallyly 阅读(33585) 评论(0) 推荐(0) 编辑
摘要: 问题总结:系统开发应该通用一种编程语言,像我的这次实验,由于Invertedtableconstruction 模块用C#语言编写,其他模块用python编写,所以很难一体化。也就是说如果进行N-fold 交叉验证,我只能手工循环实现以上流程图,而不能交给程序自己进行个N次循环实现 阅读全文
posted @ 2010-08-04 10:33 finallyly 阅读(2333) 评论(0) 推荐(0) 编辑
上一页 1 ··· 27 28 29 30 31 32 33 34 35 ··· 41 下一页