2010 年 8月 30 日随笔档案 - finallyly

2010年8月30日

摘要：经过试用，发现cnblogs的博客比百度空间博客要好用的多（首先篇幅大，其次，方便贴代码）。所以以后我的主创作园地为cnblogs博客。但是这里的博客会显得杂乱无章，于是百度博客空间会提供索引页链接，链接到我最精华的博文部分。阅读全文

posted @ 2010-08-30 20:55 finallyly 阅读(237) 评论(0) 推荐(1) 编辑

利用Viterbi算法，二元词图分词系列

摘要：作者：finallyliuyu转载请注明出处。中文分词：采用二元词图以及viterbi算法（一）中文分词：采用二元词图以及viterbi算法（二）中文分词：采用二元词图以及viterbi算法（三）中文分词：采用二元词图以及viterbi算法（四）本系列博文的相关资源下载：http://files.cnblogs.com/finallyliuyu/fenci.rarhttp://files.cnblogs.com/finallyliuyu/evaluation-tool.rarhttp://files.cnblogs.com/finallyliuyu/data.rar 阅读全文

posted @ 2010-08-30 20:42 finallyly 阅读(995) 评论(0) 推荐(2) 编辑

从KL相对熵（relative entropy或 Kullback-Leibler divergence,KL距离）看文本语义距离系列

摘要：作者：finallyliuyu转载请注明出处相对熵（relative entropy或 Kullback-Leibler divergence,KL距离）的java实现（一）相对熵（relative entropy或 Kullback-Leibler divergence,KL距离）的java实现（二）相对熵（relative entropy或 Kullback-Leibler diverge... 阅读全文

posted @ 2010-08-30 20:33 finallyly 阅读(1178) 评论(0) 推荐(0) 编辑

新闻类网页正文提取系列

摘要：作者finallyliuyu转载请注明出处驴子的新闻提取系统一驴子的新闻提取系统二新闻采阅系统效果图使用该Demo程序抓取新闻有网友站内我询问此类问题，遂特意写了篇博文简要介绍了该Demo程序的使用方案。阅读全文

posted @ 2010-08-30 20:26 finallyly 阅读(5981) 评论(0) 推荐(1) 编辑

特征词选择算法对文本分类准确率的影响（五）

摘要：上一节（也就是在四中）我们谈了在经典概率框架下，采用两种方法估算p(t|ci)，得出的结论是这两种方法对最后准确率没有显著影响。下面我们在给出一个菜鸟的naiva概率框架。该框架用概率归一化词袋子中所有词在训练文档集中出现的情况。即p(t)由词袋子模型中的统计信息直接归一化计算，并假设P(C1)=P(c2)=1/2 P(C|t)也直接计算。比如词袋子中有三个词 {[家务： class1:(1,3)... 阅读全文

posted @ 2010-08-30 20:07 finallyly 阅读(2637) 评论(0) 推荐(0) 编辑

特征词选择算法对文本分类准确率的影响（四）

摘要：本小节，我们仅考虑一种特征词选择框架IG（infomation Gain）。采用两种概率建模第一种我们称之为经典的概率建模。也就是被公认采纳的那一种。也就是说该种方法认为每个类别的概率可以根据训练语料中两个类别的文章数目来估计，由于我的实验中两类数目相等所以各为二分之一。文章是连接词语与类别的桥梁。因此在计算 TF（t,C）的时候，有可以根据文档是由多变量伯努利分布生成（一），还是多项式分布生成... 阅读全文

posted @ 2010-08-30 20:02 finallyly 阅读(2232) 评论(0) 推荐(0) 编辑

特征词选择算法对文本分类准确率的影响（三）

摘要： 08-17 19:26 特征词选择算法对文本分类准确率的影响（二）特征词选择算法对文本分类准确率的影响（一）本节的题目是：是不是特征词的数目越高？VSM模型的特征维数越高，分类的准确率越高呢？很多人会想当然地认为应该是VSM模型的维数越高，也即所选的特征词数目越多，分类准确率越高。但答案是否定的。我们看下面的这张图就知道了。从上面的图片我们可以看到当文档集规模》2000时（red line,gre... 阅读全文

posted @ 2010-08-30 19:50 finallyly 阅读(2347) 评论(0) 推荐(0) 编辑

特征词选择算法对文本分类准确率的影响（二）

摘要：特征词选择算法对文本分类准确率的影响（一）本文主要介绍下本实验的前提准备，已经筹划工作。1。文档向量空间模型（VSM）的建立：采用TF模式2。分类工具采用Chih-Jen Lin'sLibsvm3。语料库来源于搜狗开源语料库中的C00024（军事），C00013（健康）4。目前特征词选择算法为InfomationGain.5.词袋子模型格式（部分截图）：（文章标号，出现次数）6。 IG表（部分截图... 阅读全文

posted @ 2010-08-30 19:48 finallyly 阅读(2069) 评论(0) 推荐(0) 编辑

文本分类特征词选择算法科普（前言and一）

摘要：转载请注明出处，作者:finallyliuyu）前言：经了解，园子里有很多已经工作，但是对信息检索和自然语言处理感兴趣的同仁，也有很多相关领域的从业者。目前本人正在从事文本特征选择方面的研究。所以打算写一系列有关此方向的科普型博客，和大家分享见解。也希望在算法的理解方面和业内人士多多交流。此系列的计划是介绍各种特征词选择方法，参考自Yiming Yang 1997年的论文"A comparati... 阅读全文

posted @ 2010-08-30 19:44 finallyly 阅读(6332) 评论(2) 推荐(0) 编辑

写一点应用关于 Lucene.Net,snowball的重新组装（四）

摘要：作者:finallyliuyu在这个项目中，由于进行聚类的是论文摘要，而论文摘要中最重要的是名词，名词词组，已经形容词和形容词词组。所以特征词选择方法采用词性过滤加上其他策略。下面给出个图片，图片中是一个“评价论文推荐满意度”的程序截图。作为上面组合组件的一个应用来展示给大家。其中左边是原论文，右面是系统推荐的论文。原论文与推荐论文中相同的功能词（名词或形容词及其词组）用同... 阅读全文

posted @ 2010-08-30 19:34 finallyly 阅读(398) 评论(0) 推荐(0) 编辑

写一点应用关于 Lucene.Net,snowball的重新组装（三）

摘要：者:finallyliuyu 具体实现如下：1。首先在SnowballAnalyzer.cs里面建立类myEwordEntity，这个类可以看做是snowball.cs的接口：主程序调用Snowball.cs最终目的是为了获得关于词的这样一个“实体”//词汇的实体类public class myEwordEntity { public string txtWord;//词的... 阅读全文

posted @ 2010-08-30 19:32 finallyly 阅读(682) 评论(0) 推荐(0) 编辑

写一点应用关于 Lucene.Net,snowball的重新组装（二）

摘要：作者:finallyliuyu（一）中我们已经说明了任务需求。（二）中我们将驶入重点，如何用Lucene.Net，以及其他的一些开源工具实现上述功能。里要首先感谢一个人智慧掩盖真相。此人写了一个系列对于Lucene.net内部机制的入门性质的文章，令我在短时间内掌握了Lucene.net的一些要领。这里插一句我自己的对科研人员，与专业程序员的工作侧重点区别：专业程序员应该对某个编程产品熟谙其道... 阅读全文

posted @ 2010-08-30 19:30 finallyly 阅读(902) 评论(0) 推荐(0) 编辑

Kmeans聚类之特征词选择（DF法）

摘要：写个菜鸟的入门级读物：如何利用weka进行文本聚类（一）（老鸟勿进，因为你会失望的。。。）作者：finallyliuyu(转载请注明作者和出处)哦，（一）忘记附上了去掉字符串首尾空格的小函数了，现在补上。[代码]在（一）中，我们已经建立了稳定词袋子模型，这个词袋子模型可是个宝贝家伙，我们一定要小心维护。为什么呢？因为特征词选择模块，VSM（文档向量模型）的建立模块，我们都要用到它。另外我们也说了... 阅读全文

posted @ 2010-08-30 18:52 finallyly 阅读(11732) 评论(15) 推荐(1) 编辑

C++ stirng,int 互转（转载）

摘要：近做项目用到c++，才发现c++中的数据类型不是一般的BT。尤其是我和婷还是分开操作的。我写底层，用的是WIN32控制台；而婷写MFC。由于没有经验，所以没有写中间的转换程序。当集成时，类型转换特别麻烦。以下都是我收集的类型转换的方法和一些经验，供大家参考。欢迎补充~~1. char* to stringstring s(char *); 注：在不是初始化的地方最好用assign().！！！！！！... 阅读全文

posted @ 2010-08-30 13:29 finallyly 阅读(1527) 评论(4) 推荐(0) 编辑

boost regex的使用

摘要：要使用Boost.Regex, 你需要包含头文件"boost/regex.hpp". Regex是本书中两个需要独立编译的库之一(另一个是Boost.Signals)。你会很高兴获知如果你已经构建了Boost— —那只需在命令提示符下打一行命令——就可以自动链接了(对于Windows下的编译器)，所以你不需要为指出那些库文件要用而费心。你要做的第一件... 阅读全文

posted @ 2010-08-30 09:50 finallyly 阅读(1109) 评论(0) 推荐(0) 编辑

公告