会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Stan Zhai's Blog
——不忘初心,方得始终
博客园
首页
新随笔
联系
订阅
管理
2014年1月7日
我为开源做贡献,网页正文提取——Html2Article
摘要: 为什么要做正文提取一般做舆情分析,都会涉及到网页正文内容提取。对于分析而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相干的部分给剔除。可以说正文提取的好坏,直接影响了分析结果的好坏。对于特定的网站,我们可以分析其html结构,根据其结构来获取正文信息。先看一下下面这张...
阅读全文
posted @ 2014-01-07 07:11 StanZhai
阅读(44566)
评论(92)
推荐(66)
编辑
公告