2009年12月24日
摘要: 源码我已经上传至http://finallyliuyu.download.csdn.net/里面包括按洞庭散人的算法实现的Bayes,以及我改进的bayes.还有birdshiver写的二元分词器,这个我也改进了几个bug.代码比较乱。所以大家要参考我上一篇文章,来做实验对不住大家了。都是实验性质的代码,写的比较乱。顺便给自己做个广告 我最近做的大作业搭建的系统http://www.cnblogs... 阅读全文
posted @ 2009-12-24 10:17 finallyly 阅读(864) 评论(1) 推荐(0) 编辑
摘要: 代码下载最近在做一个大作业。搭建一个信息检索平台。用到了贝叶斯分类参考了洞庭散人大哥的技术博客http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html但是,他的算法运行起来很慢,原因是IO操作过于频繁,而且有些IO操作是可以避免的。下面开始介绍我的贝叶斯分类算法实现。采用分词器为河北理工大学吕震宇老师的SHARPICTCLAS ... 阅读全文
posted @ 2009-12-24 10:05 finallyly 阅读(6871) 评论(22) 推荐(5) 编辑
摘要: http://www.cnblogs.com/birdshover/archive/2008/08/26/1277103.html http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html http://www.cnblogs.com/onlytiancai/archive/2009/03/02/1150687.html 阅读全文
posted @ 2009-12-24 09:36 finallyly 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 分类采用Bayes分类综合系统效果图 阅读全文
posted @ 2009-12-24 09:31 finallyly 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 1.索引页提取效果2.正文页提取效果 (注:蓝线框出部分为噪声文字,即不属于该篇新闻的内容,红色框出部分为新闻下一页内容,该篇新闻有多页)当正文中有ATAG 和英文 是正文抽取的情况结果含有英文结果 阅读全文
posted @ 2009-12-24 09:28 finallyly 阅读(2469) 评论(4) 推荐(0) 编辑
摘要: 目录第一章 前言1.1 何为通用新闻采阅系统?1.2 目前工作进展阶段1.3 系统应用前景第二章 系统设计之基本篇2.1 开发工具介绍2.2 爬虫设计2.2.1 索引页爬取算法2.2.2 正文爬取办法2.3 正文解析方法设计2.4 结果展示2.5数据库设计第三章 系统设计之高级篇3.1 分类器设计3.2 检索系统设计3.3演示系统结构图第四章总结与展望附录 何为通用新闻采阅系统?通用新闻采阅系统按... 阅读全文
posted @ 2009-12-24 09:20 finallyly 阅读(1145) 评论(4) 推荐(0) 编辑