摘要: 最近在开发http://www.kubinan.com的时候需要抽取网页正文,在网上也看了很多算法,但效果感觉都不好,有的根本打不开无法看到效果,于是自己就试着写了一个,效果还不错,准确率应该在85%以上,支持图片和Flash,不仅仅能抽取文字。方法就是适用打分机制,把正文文字和标签的比例、标点符号、换行等因素累加起来,打分最高的就是正文,当然肯定有识别不出来的,这个是任何算法都无法避免的。感兴趣的同学可以看看,代码不长,调用方式很简单,extractor.extract(网页的HTML代码,URL地址(可选参数),这个地址用于做图片和链接地址替换):1/**2*@ExtractConten. 阅读全文
posted @ 2012-09-07 13:53 小媒体控股 阅读(577) 评论(1) 推荐(0) 编辑