finallyly - 博客园

2010年9月2日

摘要：（注意：大家下载我的程序源码以后，可能需要从网络上下载一个新的ictclas3.0包，然后覆盖原工程文件中的ictclas3.0组件，可能是因为ictclas3.0的license许可，一份ictclas3.0包只可以在一台电脑中使用，目前已经有网友遇到了类似的问题。）作者：finallyliuyu 转载使用等请注明出处1。如何建立词袋子模型2。DF特征词选择法3。VSM模型4。从Weka获取聚... 阅读全文

posted @ 2010-09-02 19:36 finallyly 阅读(36199) 评论(51) 推荐(8) 编辑

MSSQL语句备份

摘要： insert into MyNews.dbo.news(ArticleTitle,ArticleText) select ArticleTitle,ArticlePureText from newsInfoWangYi where ArticleId between 1 and 20 表复制SELECT * INTOnewtable FROMoldtable WHERE ...用一个表的一列更新另一个表的一列UPDATE DataCollection.dbo.Article SET DataCollection.dbo.Article.CKeyWord=ArticleAssist.dbo.f 阅读全文

posted @ 2010-09-02 14:10 finallyly 阅读(732) 评论(0) 推荐(1) 编辑

提问的智慧

摘要： http://www.cnblogs.com/aoaoblogs/archive/2009/12/02/How-To-Ask-Questions-The-Smart-Way.html【嗷嗷按】菜鸟亦有道，我每天都在诵读这篇菜鸟的圣经，膜拜哪些高高在上的神，告诫自己作一个合格的菜鸟。中文版转自http://www.linuxforum.net/doc/smartq-grand.html How T... 阅读全文

posted @ 2010-09-02 11:15 finallyly 阅读(329) 评论(0) 推荐(0) 编辑

2010年8月31日

贝叶斯分类专题

摘要：作者:finallyliuyu（转载，资料以及代码使用请您注明出处）也谈贝叶斯分类（一）也谈贝叶斯分类（二）阅读全文

posted @ 2010-08-31 11:01 finallyly 阅读(913) 评论(2) 推荐(0) 编辑

2010年8月30日

公告：关于博客管理

摘要：经过试用，发现cnblogs的博客比百度空间博客要好用的多（首先篇幅大，其次，方便贴代码）。所以以后我的主创作园地为cnblogs博客。但是这里的博客会显得杂乱无章，于是百度博客空间会提供索引页链接，链接到我最精华的博文部分。阅读全文

posted @ 2010-08-30 20:55 finallyly 阅读(237) 评论(0) 推荐(1) 编辑

利用Viterbi算法，二元词图分词系列

摘要：作者：finallyliuyu转载请注明出处。中文分词：采用二元词图以及viterbi算法（一）中文分词：采用二元词图以及viterbi算法（二）中文分词：采用二元词图以及viterbi算法（三）中文分词：采用二元词图以及viterbi算法（四）本系列博文的相关资源下载：http://files.cnblogs.com/finallyliuyu/fenci.rarhttp://files.cnblogs.com/finallyliuyu/evaluation-tool.rarhttp://files.cnblogs.com/finallyliuyu/data.rar 阅读全文

posted @ 2010-08-30 20:42 finallyly 阅读(995) 评论(0) 推荐(2) 编辑

从KL相对熵（relative entropy或 Kullback-Leibler divergence,KL距离）看文本语义距离系列

摘要：作者：finallyliuyu转载请注明出处相对熵（relative entropy或 Kullback-Leibler divergence,KL距离）的java实现（一）相对熵（relative entropy或 Kullback-Leibler divergence,KL距离）的java实现（二）相对熵（relative entropy或 Kullback-Leibler diverge... 阅读全文

posted @ 2010-08-30 20:33 finallyly 阅读(1178) 评论(0) 推荐(0) 编辑

新闻类网页正文提取系列

摘要：作者finallyliuyu转载请注明出处驴子的新闻提取系统一驴子的新闻提取系统二新闻采阅系统效果图使用该Demo程序抓取新闻有网友站内我询问此类问题，遂特意写了篇博文简要介绍了该Demo程序的使用方案。阅读全文

posted @ 2010-08-30 20:26 finallyly 阅读(5981) 评论(0) 推荐(1) 编辑

特征词选择算法对文本分类准确率的影响（五）

摘要：上一节（也就是在四中）我们谈了在经典概率框架下，采用两种方法估算p(t|ci)，得出的结论是这两种方法对最后准确率没有显著影响。下面我们在给出一个菜鸟的naiva概率框架。该框架用概率归一化词袋子中所有词在训练文档集中出现的情况。即p(t)由词袋子模型中的统计信息直接归一化计算，并假设P(C1)=P(c2)=1/2 P(C|t)也直接计算。比如词袋子中有三个词 {[家务： class1:(1,3)... 阅读全文

posted @ 2010-08-30 20:07 finallyly 阅读(2637) 评论(0) 推荐(0) 编辑

特征词选择算法对文本分类准确率的影响（四）

摘要：本小节，我们仅考虑一种特征词选择框架IG（infomation Gain）。采用两种概率建模第一种我们称之为经典的概率建模。也就是被公认采纳的那一种。也就是说该种方法认为每个类别的概率可以根据训练语料中两个类别的文章数目来估计，由于我的实验中两类数目相等所以各为二分之一。文章是连接词语与类别的桥梁。因此在计算 TF（t,C）的时候，有可以根据文档是由多变量伯努利分布生成（一），还是多项式分布生成... 阅读全文

posted @ 2010-08-30 20:02 finallyly 阅读(2232) 评论(0) 推荐(0) 编辑