2019 年 7月 28 日随笔档案 - _XiongH

2019年7月28日

摘要：观点一：简言之：这两个差别很大，使用场景区别也很大。先说flume：日志采集。线上数据一般主要是落地文件或者通过socket传输给另外一个系统。这种情况下，你很难推动线上应用或服务去修改接口，直接向kafka里写数据。这时候你可能就需要flume这样的系统帮你去做传输。对于数量级别，做过单机阅读全文

posted @ 2019-07-28 14:15 _XiongH 阅读(711) 评论(0) 推荐(0) 编辑

Sqoop基础知识

摘要：概述 Apache Sqoop（SQL-to-Hadoop）项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中；同时也可以把数据从 Hadoop 系统里阅读全文

posted @ 2019-07-28 14:08 _XiongH 阅读(273) 评论(0) 推荐(0) 编辑

Hbase基础知识

摘要： Hbase HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统" 非关系型数据库和关系型数据库传统关系型数据库的缺陷 1）高并发读写的瓶颈 2）可扩展性的限制 3）事务一致性的负面影响 4）复杂阅读全文

posted @ 2019-07-28 14:03 _XiongH 阅读(445) 评论(0) 推荐(0) 编辑

Flume基础知识

摘要：概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。主要作用：实时读取服务器本地磁盘数据，将数据写入HDFS；优点： Flume使用两个独立的事务分别负责从soucrce到channel，以及从channel到阅读全文

posted @ 2019-07-28 14:00 _XiongH 阅读(559) 评论(0) 推荐(1) 编辑

BigData

公告