mahout的数据处理--【根据文本文件创建vector】
摘要:
mahout有根据目录下文本转换为Vectors的工具。在创建vector前需要将文档转换为SequenceFile格式【hadoop存储文件的格式】。SequenceFile是key--value形式的存储。DocumentVectorizer 需要以unique类型为key,UTF-8格式的文本内容为value的数据格式。您可能会发现有助于提卡(http://lucene.apache.org/tika)转换成二进制文件以文本。mahout有一个漂亮的工具,它读取目录以及它的子目录以分块的方式为我们创建SequenceFile格式的数据。生成的文档的ID是/document.txt的形式。 阅读全文
posted @ 2013-10-08 15:54 AI001 阅读(410) 评论(0) 推荐(0) 编辑