finallyly - 博客园

2010年8月20日

摘要：（更新9.8日，有网友反馈说我的这个程序适用网站范围有限，我不得不说的确如此。它仅能完成对腾讯，凤凰，网易，新浪，东方，南都，等的部分版面做解析，所能解析的版面，都有我程序中提供的URL中所共有的特点。目录页面要包括新闻发布时间，要求具体到小时和分钟（如下图）另外如果你要是想通过该软件抓几个新闻做为语料资源的化，足够用了，我已经以此程序为原型，做了个新闻爬虫爬下新闻4W多篇）网友火星人.NET，关... 阅读全文

posted @ 2010-08-20 19:57 finallyly 阅读(1453) 评论(4) 推荐(1) 编辑

2010年8月18日

C++字符串处理：批量去重，以及大写变小写

摘要：最近在读洞庭散人的程序《基于K-means文本聚类》，作为C++学习的起航船。发现他的代码无法运行。而且代码中有错误。于是就在此开博更正。代码Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#include<iostream>#includ... 阅读全文

posted @ 2010-08-18 16:25 finallyly 阅读(2376) 评论(10) 推荐(0) 编辑

写一点应用关于 Lucene.Net,snowball的重新组装（一）在Lucene.Net中加入词性标注与词根还原功能

摘要：作者:finallyliuyu （资料使用，博文引用请您表面出处）本专题是有关借助于Lucene.Net工具如何对英文文章进行分词，词性标注，词根还原的。如果是借助于Lucene.net框架对中文进行分词，词性标注，那么原理上更简单。我在《也谈贝叶斯分类C#版》中给出了如何在Lucene中嵌入河北理工大学吕震宇老师(根据张华平老师的ICTCLAS分词开源版本改写成)的sharpICT.需要指出但是... 阅读全文

posted @ 2010-08-18 12:21 finallyly 阅读(2507) 评论(11) 推荐(3) 编辑

2010年8月17日

特征词选择算法对文本分类准确率的影响（前言）

摘要：作者：finallyliuyu 注：数据使用请注明来源试验数据下载资源中包括数据集规模为200,1000,2000,3000,情况下，特征维数分别为10,20,30-150的情况下5这交叉验证的全部正确率。其中文件命名为TextCategorization_0_100_10表示这是在文档集规模为200(一个类别中有100篇文章)下进行的第一折试验，当前特征维数为10。每个这样的文件夹下面包含文件... 阅读全文

posted @ 2010-08-17 22:23 finallyly 阅读(2970) 评论(6) 推荐(2) 编辑

c++杂项备忘

摘要： <摘自C++Primer>const 修饰变量，则该变量初始化的时候被赋值，在程序运行过程中不能被修改非const变量默认为extern,要使const变量能够在其他的文件中访问，必须显式地指定它为extern.const 引用是指向const对象的引用，并且只能引用该对象的值，而不能改变它的值<摘自孙鑫VC++深入详解>const char * 和char * const... 阅读全文

posted @ 2010-08-17 15:34 finallyly 阅读(274) 评论(0) 推荐(0) 编辑

博客园和百度空间，我的两个家

摘要：欢迎大家访问我的百度空间finallyliuyu的百度空间。从今天起，我将以百度作为原创博客的主田地。博客园用来做备份。博客园里的园友主要是做APP的，更加关注各种新技术。百度空间相对来讲，学生群体比较庞大，可以方便形成圈子，互相交流。当然，有好的文章我还会转到这里来的，因为这里是我入门的起点。蛙蛙池塘的《蛙蛙牌正文提取算法》对我的本科毕业设计大有启示。智慧掩盖真相的Lucene.net系列，让我... 阅读全文

posted @ 2010-08-17 13:41 finallyly 阅读(336) 评论(11) 推荐(0) 编辑

2010年8月16日

文本分类中的特征词选择算法系列科普（前言AND 一）

摘要：（转载请注明出处，作者:finallyliuyu）前言：经了解，园子里有很多已经工作，但是对信息检索和自然语言处理感兴趣的同仁，也有很多相关领域的从业者。目前本人正在从事文本特征选择方面的研究。所以打算写一系列有关此方向的科普型博客，和大家分享见解。也希望在算法的理解方面和业内人士多多交流。此系列的计划是介绍各种特征词选择方法，参考自Yiming Yang 1997年的论文"A comparat... 阅读全文

posted @ 2010-08-16 12:44 finallyly 阅读(1883) 评论(3) 推荐(3) 编辑

2010年8月14日

Python打印到文件

摘要： import cPickle as pg=p.load(file(r'D:\0_500_my\VITdata\vocabularystatistics.dat'))f=p.load(file(r'D:\0_500_my\VITdata\infoGain.dat'))fid=file('2.txt','a')for key,val in g.iteritems(): print >>fi... 阅读全文

posted @ 2010-08-14 16:16 finallyly 阅读(2593) 评论(0) 推荐(0) 编辑

有关matlab画图格式的部分代码

摘要： %matrix横坐标featureDimension,纵坐标N_corpusfeatureDimension=[100,500,1000,1500,2000,2500,3000];N_corpus=[100,500,1000,1500,2000,2500,3000];matrix0=load('0.txt');matrix1=load('1.txt');matrix2=load('2.txt');... 阅读全文

posted @ 2010-08-14 12:39 finallyly 阅读(813) 评论(0) 推荐(0) 编辑

2010年8月13日

中文分词：采用二元词图以及viterbi算法（三）

摘要：本博文为介绍如果采用二元词图以及Viterbi算法分词的系列博文之一，为主体算法模块，欢迎有此方面学习需要的朋友按顺序阅读。中文分词：采用二元词图以及viterbi算法（一）中文分词：采用二元词图以及viterbi算法（二）中文分词：采用二元词图以及viterbi算法（四）下面讲解算法主体实现部分：首先给个定义：未登录词在我的程序设计体系中未登录词分为两种：“单词未登录词”... 阅读全文

posted @ 2010-08-13 20:17 finallyly 阅读(2970) 评论(9) 推荐(2) 编辑

公告