(更新9.8日,有网友反馈说我的这个程序适用网站范围有限,我不得不说的确如此。它仅能完成对腾讯,凤凰,网易,新浪,东方,南都,等的部分版面做解析,所能解析的版面,都有我程序中提供的URL中所共有的特点。目录页面要包括新闻发布时间,要求具体到小时和分钟(如下图)另外如果你要是想通过该软件抓几个新闻做为语料资源的化,足够用了,我已经以此程序为原型,做了个新闻爬虫爬下新闻4W多篇)

网友火星人.NET,关于如何使用我的毕设程序网页正文提取DEMO,现做说明如下。

1.首先声明,我的程序不能做到完全通用,仅几个大型门户网站可以。而且大型网站的索引页的每条新闻必须包含发布时间(精确到时和分)。

2。使用步骤如下。

一。点击“帖子信息提取”

2。单击左侧树状某节点使其反蓝(一定要有此步)

3。然后点击正文提取按钮

 

posted on 2010-08-20 19:57  finallyly  阅读(1453)  评论(4编辑  收藏  举报