摘要:
概述 Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里 阅读全文
摘要:
Hbase HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统" 非关系型数据库和关系型数据库 传统关系型数据库的缺陷 1)高并发读写的瓶颈 2)可扩展性的限制 3)事务一致性的负面影响 4)复杂 阅读全文
摘要:
概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 主要作用:实时读取服务器本地磁盘数据,将数据写入HDFS; 优点: Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到 阅读全文