随笔分类 - Hadoop及其生态组件
Hadoop、Hive、Kafka、Flume等知识
摘要:HBase [TOC] 本文实际上是《HBase不睡觉书》的重点归纳。该书不涉及:集群备份、ACL权限控制、REST客户端等。而对于一些不算常用的技术,书中也提示可略过(“集群搭建”除外),本文便以“略”表示。 基础 NoSQL 关系型数据库在大数据情况下受到并发和关联等复杂查询的影响而导致性能下降
阅读全文
摘要:[TOC] 项目概要 需求 手机应用日志 定期离线分析手机应用新增用户、活跃用户、沉默用户、启动次数、版本分布和留存用户等业务指标。 工作流程 1. 手机APP启动时,上报启动日志、错误日志、页面日志、事件日志、使用时长日志等信息到日志收集服务器。 2. 日志收集服务器将收集到的日志信息发送给kaf
阅读全文
摘要:Kafka总结 [TOC] 什么是kafka:分布式流处理平台。主要三个特点:可以发布和订阅消息的系统;可容错且持久地存储流记录;流计算。通常使用前两个特征。 发布订阅信息系统一般规则 :消费者可订阅多个topic(消息队列),同一条数据可被多个消费者消费,消息被消费后不会被立刻删除。 概念 Bro
阅读全文
摘要:[TOC] 基础 建立在Hadoop上的数据仓库(Hive的表就是HDFS的目录、数据就是HDFS的文件),定义了类似SQL的查询语言,通过它来读写和管理分布式存储的数据。它的底层执行引擎可以是MapReduce、Spark等(将SQL语句转化成M/R或者Spark语言)。 优点:简单SQL,常用于
阅读全文