摘要: 我们已经利用larbin从网上抓取了六千多个HTML文件,在使用clucene建立索引之前,我们还需要把HTML文件中的各种无用的标签去掉,形成只包含有实际内容的文档.html2txt就是这样一个工具. 阅读全文
posted @ 2011-04-30 22:27 高性能golang 阅读(4832) 评论(0) 推荐(0) 编辑