君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2014年3月11日 #

摘要: 算法思路:假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;最后找出最大的文本块作为正文-------------------------------... 阅读全文
posted @ 2014-03-11 23:58 刺猬的温驯 阅读(455) 评论(0) 推荐(0) 编辑