摘要: 观点一: 简言之:这两个差别很大,使用场景区别也很大。 先说flume: 日志采集。线上数据一般主要是落地文件或者通过socket传输给另外一个系统。这种情况下,你很难推动线上应用或服务去修改接口,直接向kafka里写数据。这时候你可能就需要flume这样的系统帮你去做传输。 对于数量级别,做过单机 阅读全文
posted @ 2019-07-28 14:15 _XiongH 阅读(711) 评论(0) 推荐(0) 编辑
摘要: 概述 Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里 阅读全文
posted @ 2019-07-28 14:08 _XiongH 阅读(273) 评论(0) 推荐(0) 编辑
摘要: Hbase HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统" 非关系型数据库和关系型数据库 传统关系型数据库的缺陷 1)高并发读写的瓶颈 2)可扩展性的限制 3)事务一致性的负面影响 4)复杂 阅读全文
posted @ 2019-07-28 14:03 _XiongH 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 主要作用:实时读取服务器本地磁盘数据,将数据写入HDFS; 优点: Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到 阅读全文
posted @ 2019-07-28 14:00 _XiongH 阅读(559) 评论(0) 推荐(1) 编辑