2012 年 3月 6 日随笔档案 - 不死鸟2013

2012年3月6日

摘要：查找发现了两个比较好的网页正文提取算法：国内：哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/，效果为亲测，文章中呈准确率95%以上，对1000个网页抽取耗时21.29秒。看了文章感觉不错，无需html解析，效率应该会高些。国外：大名鼎鼎的arc90实验室的Readability，该算法已经商业化实现了firefox,chrome插件，及flipboard，并且已经集成进了safari浏览器。未详细测试，大致测试感觉准确率应该至少在90%以上。该算法需要解析DOM树，因此稍执行效率稍微慢一些。大致过程为，阅读全文

posted @ 2012-03-06 16:19 不死鸟2013 阅读(13411) 评论(4) 推荐(1) 编辑

不死鸟2013

公告