上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 41 下一页
  2010年8月20日
摘要: (更新9.8日,有网友反馈说我的这个程序适用网站范围有限,我不得不说的确如此。它仅能完成对腾讯,凤凰,网易,新浪,东方,南都,等的部分版面做解析,所能解析的版面,都有我程序中提供的URL中所共有的特点。目录页面要包括新闻发布时间,要求具体到小时和分钟(如下图)另外如果你要是想通过该软件抓几个新闻做为语料资源的化,足够用了,我已经以此程序为原型,做了个新闻爬虫爬下新闻4W多篇)网友火星人.NET,关... 阅读全文
posted @ 2010-08-20 19:57 finallyly 阅读(1453) 评论(4) 推荐(1) 编辑
  2010年8月18日
摘要: 最近在读洞庭散人的程序《基于K-means文本聚类》,作为C++学习的起航船。发现他的代码无法运行。而且代码中有错误。于是就在此开博更正。代码Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#include<iostream>#includ... 阅读全文
posted @ 2010-08-18 16:25 finallyly 阅读(2376) 评论(10) 推荐(0) 编辑
摘要: 作者:finallyliuyu (资料使用,博文引用请您表面出处)本专题是有关借助于Lucene.Net工具如何对英文文章进行分词,词性标注,词根还原的。如果是借助于Lucene.net框架对中文进行分词,词性标注,那么原理上更简单。我在《也谈贝叶斯分类C#版》中给出了如何在Lucene中嵌入河北理工大学吕震宇老师(根据张华平老师的ICTCLAS分词开源版本改写成)的sharpICT.需要指出但是... 阅读全文
posted @ 2010-08-18 12:21 finallyly 阅读(2507) 评论(11) 推荐(3) 编辑
  2010年8月17日
摘要: 作者:finallyliuyu 注:数据使用请注明来源试验数据下载资源中包括 数据集规模为200,1000,2000,3000,情况下,特征维数分别为10,20,30-150的情况下5这交叉验证的全部正确率。其中文件命名为TextCategorization_0_100_10表示这是在文档集规模为200(一个类别中有100篇文章)下进行的第一折试验,当前特征维数为10。每个这样的文件夹下面包含文件... 阅读全文
posted @ 2010-08-17 22:23 finallyly 阅读(2970) 评论(6) 推荐(2) 编辑
摘要: <摘自C++Primer>const 修饰变量,则该变量初始化的时候被赋值,在程序运行过程中不能被修改非const变量默认为extern,要使const变量能够在其他的文件中访问,必须显式地指定它为extern.const 引用是指向const对象的引用,并且只能引用该对象的值,而不能改变它的值<摘自孙鑫VC++深入详解>const char * 和char * const... 阅读全文
posted @ 2010-08-17 15:34 finallyly 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 欢迎大家访问我的百度空间finallyliuyu的百度空间。从今天起,我将以百度作为原创博客的主田地。博客园用来做备份。博客园里的园友主要是做APP的,更加关注各种新技术。百度空间相对来讲,学生群体比较庞大,可以方便形成圈子,互相交流。当然,有好的文章我还会转到这里来的,因为这里是我入门的起点。蛙蛙池塘的《蛙蛙牌正文提取算法》对我的本科毕业设计大有启示。智慧掩盖真相的Lucene.net系列,让我... 阅读全文
posted @ 2010-08-17 13:41 finallyly 阅读(336) 评论(11) 推荐(0) 编辑
  2010年8月16日
摘要: (转载请注明出处,作者:finallyliuyu) 前言:经了解,园子里有很多已经工作,但是对信息检索和自然语言处理感兴趣的同仁,也有很多相关领域的从业者。目前本人正在从事文本特征选择方面的研究。所以打算写一系列有关此方向的科普型博客,和大家分享见解。也希望在算法的理解方面和业内人士多多交流。此系列的计划是介绍各种特征词选择方法,参考自Yiming Yang 1997年的论文"A comparat... 阅读全文
posted @ 2010-08-16 12:44 finallyly 阅读(1883) 评论(3) 推荐(3) 编辑
  2010年8月14日
摘要: import cPickle as pg=p.load(file(r'D:\0_500_my\VITdata\vocabularystatistics.dat'))f=p.load(file(r'D:\0_500_my\VITdata\infoGain.dat'))fid=file('2.txt','a')for key,val in g.iteritems(): print >>fi... 阅读全文
posted @ 2010-08-14 16:16 finallyly 阅读(2593) 评论(0) 推荐(0) 编辑
摘要: %matrix横坐标featureDimension,纵坐标N_corpusfeatureDimension=[100,500,1000,1500,2000,2500,3000];N_corpus=[100,500,1000,1500,2000,2500,3000];matrix0=load('0.txt');matrix1=load('1.txt');matrix2=load('2.txt');... 阅读全文
posted @ 2010-08-14 12:39 finallyly 阅读(813) 评论(0) 推荐(0) 编辑
  2010年8月13日
摘要: 本博文为介绍如果采用二元词图以及Viterbi算法分词的系列博文之一,为主体算法模块,欢迎有此方面学习需要的朋友按顺序阅读。中文分词:采用二元词图以及viterbi算法(一)中文分词:采用二元词图以及viterbi算法(二) 中文分词:采用二元词图以及viterbi算法(四)下面讲解算法主体实现部分:首先给个定义:未登录词在我的程序设计体系中未登录词分为两种:“单词未登录词”... 阅读全文
posted @ 2010-08-13 20:17 finallyly 阅读(2970) 评论(9) 推荐(2) 编辑
上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 41 下一页