中间件 - 随笔分类 - 清泉白石

Zookeeper

摘要：Zk下载链接 http://archive.apache.org/dist/zookeeper/zookeeper 3.4.10/ Zk官方文档 https://zookeeper.apache.org/doc/current/index.html 启动Zk 阅读全文

posted @ 2020-04-17 11:51 清泉白石阅读(160) 评论(0) 推荐(0) 编辑

Flink（七） —— 窗口

摘要：窗口概念 Windows are at the heart of processing infinite streams（无界流）. Windows split the stream into “buckets” of finite （有限的）size, over which we can appl 阅读全文

posted @ 2020-03-02 01:24 清泉白石阅读(423) 评论(0) 推荐(0) 编辑

Flink（六） —— 配置文件详解

摘要：基础配置高可用部分容错和检查点配置 Flink集群安全配置 Zookeeper安全配置阅读全文

posted @ 2020-02-26 02:28 清泉白石阅读(2618) 评论(0) 推荐(0) 编辑

Flink（五） —— DataStream API

摘要：Source 从自定义的集合中读取数据从Kafka中读取数据引入依赖代码从自定义的Source中读取数据 Transform 样例数据 map、reduce、keyBy map DataStream DataStream 通过应用给定的函数，对原先DataStream中的每个元素进行处理，获阅读全文

posted @ 2020-02-22 18:45 清泉白石阅读(314) 评论(0) 推荐(0) 编辑

Flink（四） —— 数据流编程模型

摘要：分层抽象 The lowest level abstraction simply offers stateful streaming. It is embedded into the DataStream API via the Process Function. It allows users f 阅读全文

posted @ 2020-02-22 03:01 清泉白石阅读(360) 评论(1) 推荐(0) 编辑

Flink（三） —— 运行架构

摘要：Flink运行时组件 JobManager 作业管理器 TaskManager 任务管理器 ResourceManager 资源管理器 Dispatcher 分发器任务提交流程任务调度原理 Job Managers, Task Managers, Clients The Flink runtim 阅读全文

posted @ 2020-02-21 04:29 清泉白石阅读(400) 评论(0) 推荐(0) 编辑

Flink（二） —— 部署与任务提交

摘要：一、下载&启动官网上下载安装包，执行下列命令即启动完成。效果图 Flink部署模式 Standalone模式 Yarn模式 k8s部署二、配置文件 flink conf.yaml 三、提交任务以UI的方式提交以命令的方式提交提交job 查看当前所有job 取消job 异常同样的代码，同阅读全文

posted @ 2020-02-20 07:05 清泉白石阅读(8299) 评论(0) 推荐(0) 编辑

Hive（二）—— 架构设计

摘要：Hive架构 Figure 1 also shows how a typical query flows through the system. 图一显示一个普通的查询是如何流经Hive系统的。 The UI calls the execute interface to the Driver (st 阅读全文

posted @ 2020-01-17 15:16 清泉白石阅读(238) 评论(0) 推荐(0) 编辑

Flume（三） —— 断点续传与事务

摘要：断点续传执行运行结果原理在配置的文件中，会发现，flume将位置信息记录在这个postition中。事务 put事务和take事务阅读全文

posted @ 2020-01-13 21:19 清泉白石阅读(365) 评论(0) 推荐(0) 编辑

Flume（二） —— 自定义拦截器、Source、Sink

摘要：自定义拦截器自定义Source 自定义Sink 引入依赖代码编译好的jar上传到flume/lib下创建配置文件mysink.conf 运行运行结果阅读全文

posted @ 2019-12-30 10:12 清泉白石阅读(381) 评论(0) 推荐(0) 编辑

技术文章整理

摘要：一、Java 源码阅读 "Java源码阅读（一）—— HashMap" "Java源码阅读（二）—— ConcurrentHashMap" "Java源码阅读（三）—— ThreadLocal" "Java源码阅读（四）—— ArrayBlockingQueue" "Java源码阅读（五）—— Ab 阅读全文

posted @ 2019-12-28 17:18 清泉白石阅读(346) 评论(0) 推荐(0) 编辑

Canal —— 基本概念及使用

摘要：参考文档 "开源数据同步神器——canal" "【若泽大数据】大数据之实时数据源同步中间件生产上Canal与Maxwell颠峰对决" 阅读全文

posted @ 2019-12-27 15:42 清泉白石阅读(335) 评论(0) 推荐(0) 编辑

Kafka(五） —— Kafka源码本地调试

摘要：搭建环境安装scala 安装gradle 在kafka源码的根目录执行命令打开IDEA，File Open kafka源码项目，配置config/server.properties，将zk的地址改为可用的地址，并启动zk。将log4j.properties放置到src/main/Scala 阅读全文

posted @ 2019-12-26 23:36 清泉白石阅读(2139) 评论(0) 推荐(0) 编辑

Hadoop（五）—— HDFS NameNode、DataNode工作机制

摘要：一、NN与2NN工作机制 NameNode(NN) 1、当HDFS启动时，会加载日志(edits)和镜像文件(fsImage)到内存中。 2 4、当元数据的增删改查请求进来时，NameNode会先将操作记录到日志中，之后再执行内存数据的增删改查 SecondNameNode(2NN) 1、Secon 阅读全文

posted @ 2019-12-20 06:25 清泉白石阅读(756) 评论(0) 推荐(1) 编辑

Cloudera-Manage —— 基本概念及使用

摘要：概念 Cloudera Manager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器，这款利器具有集群自动化安装、中心化管理、集群监控、报警等功能，极大的提高集群管理的效率。 API调用引入依赖参考文档 "cloudera manager api文档" "Cloudera E 阅读全文

posted @ 2019-12-16 20:47 清泉白石阅读(597) 评论(0) 推荐(0) 编辑

Hadoop（四）—— MapReduce

摘要：一、Hadoop版本特性 MRv1 第一代计算框架，由编程模型和运行时环境两部分组成。编程模型是，将数据进行map操作，然后进行reduce操作，最后将计算结果存储到HDFS中。运行时环境是，由JobTracker和TaskTracker组成，JobTracker进行资源管理和作业控制。Task 阅读全文

posted @ 2019-12-05 16:25 清泉白石阅读(583) 评论(0) 推荐(0) 编辑

Hadoop（三）—— YARN

摘要：YARN产生的背景 Hadoop相关概念 Hadoop 1.0 由HDFS、MapReduce组成。 Hadoop 2.0 克服1.0中HDFS和MapReduce存在的各种问题而提出的。 YARN是Hadoop中的资源管理系统。基本架构 The Scheduler is responsible 阅读全文

posted @ 2019-12-05 15:59 清泉白石阅读(615) 评论(0) 推荐(0) 编辑

Hadoop（二）—— HDFS

摘要：HDFS（Hadoop Distributed File System）Hadoop分布式文件系统。一、HDFS产生的背景随着数据量越来越大，如果大到一台主机的磁盘都存放不下，该如何解决这个问题。一种思路是将数据分片放到多台主机上。如果放到多台主机上，又该怎么去管理，如果有些主机宕机了，数据丢失阅读全文

posted @ 2019-12-05 15:11 清泉白石阅读(2071) 评论(0) 推荐(0) 编辑

Hive（一）—— 启动与基本使用

摘要：一、基本概念 The Apache Hive™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried 阅读全文

posted @ 2019-12-04 21:30 清泉白石阅读(7185) 评论(0) 推荐(1) 编辑

Flume（一） —— 启动与基本使用

摘要：基础架构 Flume is a distributed, reliable（可靠地）, and available service for efficiently（高效地） collecting, aggregating, and moving large amounts of log data. 阅读全文

posted @ 2019-12-02 22:25 清泉白石阅读(6978) 评论(0) 推荐(0) 编辑

清泉白石

随笔分类 - 中间件

公告

我的标签

积分与排名

随笔分类

阅读排行榜

推荐排行榜