会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
君子博学而日参省乎己 则知明而行无过矣
博客园
首页
新随笔
联系
订阅
管理
公告
2014年3月11日
#
基于行块分布函数的通用网页正文内容抽取(带HTML格式)
摘要: 算法思路:假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;最后找出最大的文本块作为正文-------------------------------...
阅读全文
posted @ 2014-03-11 23:58 刺猬的温驯
阅读(461)
评论(0)
推荐(0)
编辑
Powered by:
博客园
Copyright © 2024 刺猬的温驯
Powered by .NET 9.0 on Kubernetes