会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
高性能golang
Technologies come and technologies go, but insight is forever.
博客园
首页
联系
订阅
管理
2011年4月30日
html2txt
摘要:
我们已经利用larbin从网上抓取了六千多个HTML文件,在使用clucene建立索引之前,我们还需要把HTML文件中的各种无用的标签去掉,形成只包含有实际内容的文档.html2txt就是这样一个工具.
阅读全文
posted @ 2011-04-30 22:27 高性能golang
阅读(4878)
评论(0)
推荐(0)
编辑
公告