2011 年 8月 17 日随笔档案 - loveyakamoz

2011年8月17日

List of resources: Article text extraction from HTML documents

摘要： Addedreader contributedlinks to software and API sectionFollowing up to myoverviewof article text extractors, I’ll try to compile a list of research papers, articles, web APIs, libraries and other software that I encountered during my research.Research papers and ArticlesJust to summarize the ones m 阅读全文

posted @ 2011-08-17 19:33 loveyakamoz 阅读(958) 评论(0) 推荐(0) 编辑

基于行块分布函数的通用网页正文抽取

摘要：转自：http://hi.baidu.com/%B0%AE%D0%C4%CD%AC%C3%CB_%B3%C2%F6%CE/blog/item/b0f24a8b0c026edffd1f1056.html基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关简述：对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围内通用，这是一个直接关系上层应用的难题。作者提出了《基于行块分布函数的通用网页正文抽取算法》阅读全文

posted @ 2011-08-17 18:44 loveyakamoz 阅读(2993) 评论(0) 推荐(0) 编辑

loveyakamoz

本博客中的一些内容为网络转载，用于学习，如果涉及版权问题，请留言！谢谢

公告