摘要: 一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。目前HDFS支持的使用接口除了Java的还有,Thr... 阅读全文
posted @ 2012-02-14 23:50 夏至冬末 阅读(295) 评论(0) 推荐(0) 编辑
摘要: Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的... 阅读全文
posted @ 2012-02-14 09:37 夏至冬末 阅读(523) 评论(0) 推荐(0) 编辑