君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

算法思路:

假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;

以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;

以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;

最后找出最大的文本块作为正文

-------------------------------------------------------------------------

网页正文抽取程序测试效果

posted on 2014-03-11 23:58  刺猬的温驯  阅读(453)  评论(0编辑  收藏  举报