2012 年 9月 7 日随笔档案 - 小媒体控股

2012年9月7日

摘要：最近在开发http://www.kubinan.com的时候需要抽取网页正文，在网上也看了很多算法，但效果感觉都不好，有的根本打不开无法看到效果，于是自己就试着写了一个，效果还不错，准确率应该在85%以上，支持图片和Flash，不仅仅能抽取文字。方法就是适用打分机制，把正文文字和标签的比例、标点符号、换行等因素累加起来，打分最高的就是正文，当然肯定有识别不出来的，这个是任何算法都无法避免的。感兴趣的同学可以看看，代码不长，调用方式很简单，extractor.extract(网页的HTML代码，URL地址（可选参数），这个地址用于做图片和链接地址替换)：1/**2*@ExtractConten. 阅读全文

posted @ 2012-09-07 13:53 小媒体控股阅读(577) 评论(1) 推荐(0) 编辑

公告