上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 41 下一页
  2010年9月2日
摘要: (注意: 大家下载我的程序源码以后,可能需要从网络上下载一个新的ictclas3.0包,然后覆盖原工程文件中的ictclas3.0组件,可能是因为ictclas3.0的license许可,一份ictclas3.0包只可以在一台电脑中使用,目前已经有网友遇到了类似的问题。)作者:finallyliuyu 转载使用等请注明出处1。如何建立词袋子模型2。DF特征词选择法3。VSM模型4。从Weka获取聚... 阅读全文
posted @ 2010-09-02 19:36 finallyly 阅读(36199) 评论(51) 推荐(8) 编辑
摘要: insert into MyNews.dbo.news(ArticleTitle,ArticleText) select ArticleTitle,ArticlePureText from newsInfoWangYi where ArticleId between 1 and 20 表复制SELECT * INTOnewtable FROMoldtable WHERE ...用一个表的一列 更新另一个表的一列UPDATE DataCollection.dbo.Article SET DataCollection.dbo.Article.CKeyWord=ArticleAssist.dbo.f 阅读全文
posted @ 2010-09-02 14:10 finallyly 阅读(732) 评论(0) 推荐(1) 编辑
摘要: http://www.cnblogs.com/aoaoblogs/archive/2009/12/02/How-To-Ask-Questions-The-Smart-Way.html【嗷嗷按】菜鸟亦有道,我每天都在诵读这篇菜鸟的圣经,膜拜哪些高高在上的神,告诫自己作一个合格的菜鸟。 中文版转自http://www.linuxforum.net/doc/smartq-grand.html How T... 阅读全文
posted @ 2010-09-02 11:15 finallyly 阅读(329) 评论(0) 推荐(0) 编辑
  2010年8月31日
摘要: 作者:finallyliuyu(转载,资料以及代码使用请您注明出处)也谈贝叶斯分类(一)也谈贝叶斯分类(二) 阅读全文
posted @ 2010-08-31 11:01 finallyly 阅读(913) 评论(2) 推荐(0) 编辑
  2010年8月30日
摘要: 经过试用,发现cnblogs的博客比百度空间博客要好用的多(首先篇幅大,其次,方便贴代码)。所以以后我的主创作园地为cnblogs博客。但是这里的博客会显得杂乱无章,于是百度博客空间会提供索引页链接,链接到我最精华的博文部分。 阅读全文
posted @ 2010-08-30 20:55 finallyly 阅读(237) 评论(0) 推荐(1) 编辑
摘要: 作者:finallyliuyu转载请注明出处。中文分词:采用二元词图以及viterbi算法(一) 中文分词:采用二元词图以及viterbi算法(二) 中文分词:采用二元词图以及viterbi算法(三) 中文分词:采用二元词图以及viterbi算法(四) 本系列博文的相关资源下载:http://files.cnblogs.com/finallyliuyu/fenci.rarhttp://files.cnblogs.com/finallyliuyu/evaluation-tool.rarhttp://files.cnblogs.com/finallyliuyu/data.rar 阅读全文
posted @ 2010-08-30 20:42 finallyly 阅读(995) 评论(0) 推荐(2) 编辑
摘要: 作者:finallyliuyu转载请注明出处相对熵(relative entropy或 Kullback-Leibler divergence,KL距离)的java实现(一) 相对熵(relative entropy或 Kullback-Leibler divergence,KL距离)的java实现(二) 相对熵(relative entropy或 Kullback-Leibler diverge... 阅读全文
posted @ 2010-08-30 20:33 finallyly 阅读(1178) 评论(0) 推荐(0) 编辑
摘要: 作者finallyliuyu转载请注明出处驴子的新闻提取系统一驴子的新闻提取系统二新闻采阅系统效果图使用该Demo程序抓取新闻 有网友站内我询问此类问题,遂特意写了篇博文简要介绍了该Demo程序的使用方案。 阅读全文
posted @ 2010-08-30 20:26 finallyly 阅读(5981) 评论(0) 推荐(1) 编辑
摘要: 上一节(也就是在四中)我们谈了在经典概率框架下,采用两种方法估算p(t|ci),得出的结论是这两种方法对最后准确率没有显著影响。下面我们在给出一个菜鸟的naiva概率框架。该框架用概率归一化词袋子中所有词在训练文档集中出现的情况。即p(t)由词袋子模型中的统计信息直接归一化计算,并假设P(C1)=P(c2)=1/2 P(C|t)也直接计算。比如词袋子中有三个词 {[家务: class1:(1,3)... 阅读全文
posted @ 2010-08-30 20:07 finallyly 阅读(2637) 评论(0) 推荐(0) 编辑
摘要: 本小节,我们仅考虑一种特征词选择框架IG(infomation Gain)。采用两种概率建模第一种我们称之为经典的概率建模。也就是被公认采纳的那一种。也就是说该种方法认为 每个类别的概率可以根据训练语料中两个类别的文章数目来估计,由于我的实验中两类数目相等所以各为二分之一。文章是连接词语与类别的桥梁。因此在计算 TF(t,C)的时候,有可以根据文档是由多变量伯努利分布生成(一),还是多项式分布生成... 阅读全文
posted @ 2010-08-30 20:02 finallyly 阅读(2232) 评论(0) 推荐(0) 编辑
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 41 下一页