目录

第一章 前言

1.1  何为通用新闻采阅系统?

1.2 目前工作进展阶段

1.3 系统应用前景

第二章 系统设计之基本篇

2.1 开发工具介绍

2.2 爬虫设计

2.2.1 索引页爬取算法

2.2.2 正文爬取办法

2.3 正文解析方法设计

2.4 结果展示

2.5数据库设计

第三章 系统设计之高级篇

3.1 分类器设计

3.2        检索系统设计

3.3 演示系统结构图

第四章 总结与展望

附录

 

 何为通用新闻采阅系统?

通用新闻采阅系统按名字解释为“通用的新闻采集阅读系统”。笔者在北京邮电大学做本科毕业设计的时候曾经参与到徐蔚然、陈光老师的搜索项目组中,负责网页模板制作工作。在工作中深感这种模板制作工作的繁重,乏味与无趣(一个门户网站如腾讯:就要针对不同的版面设计不同的模板),同时在模板制作中发现目前主流新闻网站如腾讯,凤凰,人民,新浪,网易,南方报业等,能够总结出一些共性的规律:例如二级索引页面中的新闻地址列表要么放在若干个div中,要么放在若干的ul li,table中,或者是放在一些其他的特定HTML元素中。新闻正文页亦有如此特征。如果能充分利用些特征,那么就有希望制作出通用的新闻采集系统,把人们从繁重的“制作带爬取网页模板”的体力劳动中解放出来。

1.什么是索引页面

 

2.正文页面

其中红色框出部分为我们要抽取的目标区域

 

 

posted on 2009-12-24 09:20  finallyly  阅读(1145)  评论(4编辑  收藏  举报