算法思路:
假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;
以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;
以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;
最后找出最大的文本块作为正文
-------------------------------------------------------------------------
网页正文抽取程序测试效果
Powered by: 博客园 Copyright © 2024 刺猬的温驯 Powered by .NET 9.0 on Kubernetes