mahout的数据文件格式
摘要:
原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Data+FormatsMahout支持许多格式的文件以便实现各种工作。文件格式可导入的文件格式1. 文本文件 (1)满足以下格式的文本可以转化为流数据文件导入:(行号,行文本)(文件名,文件的全部内容)(行号,行份的用正则表达式模式) (2)可以解析为Lucene索引的文本: 精确的索引设计???(此处不明白为什么会有三个问号,可能有部分文本会失败吧)2. ARFF文件WEKA(来源)项目文本数据格式 可以格式生成流文件的数据3. 邮箱文件 满足以下格式的邮件可以转化为流数据文.. 阅读全文
posted @ 2013-08-15 15:45 AI001 阅读(1142) 评论(0) 推荐(0) 编辑