2018 年 5月 7 日随笔档案 - 扎心了，老铁

2018年5月7日

摘要：一、高可用的由来 1.1　为何需要Replication 在Kafka在0.8以前的版本中，是没有Replication的，一旦某一个Broker宕机，则其上所有的Partition数据都不可被消费，这与Kafka数据持久性及Delivery Guarantee的设计目标相悖。同时Producer都阅读全文

posted @ 2018-05-07 20:10 扎心了，老铁阅读(87472) 评论(14) 推荐(26) 编辑

Kafka学习之路（二）Kafka的架构

摘要：一、Kafka的架构如上图所示，一个典型的Kafka集群中包含若干Producer（可以是web前端产生的Page View，或者是服务器日志，系统CPU、Memory等），若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），若干Consumer Group，以及阅读全文

posted @ 2018-05-07 19:39 扎心了，老铁阅读(86330) 评论(12) 推荐(37) 编辑

Kafka学习之路（一）Kafka的简介

摘要：一、简介 1.1　概述 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级阅读全文

posted @ 2018-05-07 19:18 扎心了，老铁阅读(678663) 评论(29) 推荐(120) 编辑

Flume学习之路（三）Flume的配置方式

摘要：一、单一代理流配置 1.1　官网介绍 http://flume.apache.org/FlumeUserGuide.html#avro-source 通过一个通道将来源和接收器链接。需要列出源，接收器和通道，为给定的代理，然后指向源和接收器及通道。一个源的实例可以指定多个通道，但只能指定一个接收器实阅读全文

posted @ 2018-05-07 18:47 扎心了，老铁阅读(22835) 评论(0) 推荐(1) 编辑

Flume学习之路（二）Flume的Source类型

摘要：一、概述官方文档介绍：http://flume.apache.org/FlumeUserGuide.html#flume-sources 二、Flume Sources 描述 2.1　Avro Source 2.1.1　介绍监听Avro端口，从Avro client streams接收event 阅读全文

posted @ 2018-05-07 18:46 扎心了，老铁阅读(22426) 评论(1) 推荐(4) 编辑

Flume学习之路（一）Flume的基础介绍

摘要：一、背景 Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步. 许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需阅读全文

posted @ 2018-05-07 18:43 扎心了，老铁阅读(66919) 评论(1) 推荐(7) 编辑

Spark学习之路（二十一）SparkSQL的开窗函数和DataSet

摘要： 666 阅读全文

posted @ 2018-05-07 18:42 扎心了，老铁阅读(4858) 评论(6) 推荐(0) 编辑

Spark学习之路（二十）SparkSQL的元数据

摘要：一、概述 SparkSQL 的元数据的状态有两种： 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的，也就是说，hive的元数据存在哪儿，它的元数据也就存在哪儿。换句话说，SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数据仓阅读全文

posted @ 2018-05-07 18:33 扎心了，老铁阅读(7645) 评论(0) 推荐(0) 编辑

扎心了，老铁

公告