随笔分类 -  中间件

摘要:Zk下载链接 http://archive.apache.org/dist/zookeeper/zookeeper 3.4.10/ Zk官方文档 https://zookeeper.apache.org/doc/current/index.html 启动Zk 阅读全文
posted @ 2020-04-17 11:51 清泉白石 阅读(159) 评论(0) 推荐(0) 编辑
摘要:窗口概念 Windows are at the heart of processing infinite streams(无界流). Windows split the stream into “buckets” of finite (有限的)size, over which we can appl 阅读全文
posted @ 2020-03-02 01:24 清泉白石 阅读(419) 评论(0) 推荐(0) 编辑
摘要:基础配置 高可用部分 容错和检查点配置 Flink集群安全配置 Zookeeper安全配置 阅读全文
posted @ 2020-02-26 02:28 清泉白石 阅读(2616) 评论(0) 推荐(0) 编辑
摘要:Source 从自定义的集合中读取数据 从Kafka中读取数据 引入依赖 代码 从自定义的Source中读取数据 Transform 样例数据 map、reduce、keyBy map DataStream DataStream 通过应用给定的函数,对原先DataStream中的每个元素进行处理,获 阅读全文
posted @ 2020-02-22 18:45 清泉白石 阅读(312) 评论(0) 推荐(0) 编辑
摘要:分层抽象 The lowest level abstraction simply offers stateful streaming. It is embedded into the DataStream API via the Process Function. It allows users f 阅读全文
posted @ 2020-02-22 03:01 清泉白石 阅读(359) 评论(1) 推荐(0) 编辑
摘要:Flink运行时组件 JobManager 作业管理器 TaskManager 任务管理器 ResourceManager 资源管理器 Dispatcher 分发器 任务提交流程 任务调度原理 Job Managers, Task Managers, Clients The Flink runtim 阅读全文
posted @ 2020-02-21 04:29 清泉白石 阅读(399) 评论(0) 推荐(0) 编辑
摘要:一、下载&启动 官网上下载安装包,执行下列命令即启动完成。 效果图 Flink部署模式 Standalone模式 Yarn模式 k8s部署 二、配置文件 flink conf.yaml 三、提交任务 以UI的方式提交 以命令的方式提交 提交job 查看当前所有job 取消job 异常 同样的代码,同 阅读全文
posted @ 2020-02-20 07:05 清泉白石 阅读(8296) 评论(0) 推荐(0) 编辑
摘要:Hive架构 Figure 1 also shows how a typical query flows through the system. 图一显示一个普通的查询是如何流经Hive系统的。 The UI calls the execute interface to the Driver (st 阅读全文
posted @ 2020-01-17 15:16 清泉白石 阅读(237) 评论(0) 推荐(0) 编辑
摘要:断点续传 执行 运行结果 原理 在配置的 文件中,会发现,flume将位置信息记录在这个postition中。 事务 put事务和take事务 阅读全文
posted @ 2020-01-13 21:19 清泉白石 阅读(364) 评论(0) 推荐(0) 编辑
摘要:自定义拦截器 自定义Source 自定义Sink 引入依赖 代码 编译好的jar上传到flume/lib下 创建配置文件mysink.conf 运行 运行结果 阅读全文
posted @ 2019-12-30 10:12 清泉白石 阅读(378) 评论(0) 推荐(0) 编辑
摘要:一、Java 源码阅读 "Java源码阅读(一)—— HashMap" "Java源码阅读(二)—— ConcurrentHashMap" "Java源码阅读(三)—— ThreadLocal" "Java源码阅读(四)—— ArrayBlockingQueue" "Java源码阅读(五)—— Ab 阅读全文
posted @ 2019-12-28 17:18 清泉白石 阅读(344) 评论(0) 推荐(0) 编辑
摘要:参考文档 "开源数据同步神器——canal" "【若泽大数据】大数据之实时数据源同步中间件 生产上Canal与Maxwell颠峰对决" 阅读全文
posted @ 2019-12-27 15:42 清泉白石 阅读(332) 评论(0) 推荐(0) 编辑
摘要:搭建环境 安装scala 安装gradle 在kafka源码的根目录执行命令 打开IDEA,File Open kafka源码项目, 配置config/server.properties,将zk的地址改为可用的地址,并启动zk。 将log4j.properties放置到src/main/Scala 阅读全文
posted @ 2019-12-26 23:36 清泉白石 阅读(2138) 评论(0) 推荐(0) 编辑
摘要:一、NN与2NN工作机制 NameNode(NN) 1、当HDFS启动时,会加载日志(edits)和镜像文件(fsImage)到内存中。 2 4、当元数据的增删改查请求进来时,NameNode会先将操作记录到日志中,之后再执行内存数据的增删改查 SecondNameNode(2NN) 1、Secon 阅读全文
posted @ 2019-12-20 06:25 清泉白石 阅读(750) 评论(0) 推荐(1) 编辑
摘要:概念 Cloudera Manager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器,这款利器具有集群自动化安装、中心化管理、集群监控、报警等功能,极大的提高集群管理的效率。 API调用 引入依赖 参考文档 "cloudera manager api文档" "Cloudera E 阅读全文
posted @ 2019-12-16 20:47 清泉白石 阅读(589) 评论(0) 推荐(0) 编辑
摘要:一、Hadoop版本特性 MRv1 第一代计算框架,由编程模型和运行时环境两部分组成。 编程模型是,将数据进行map操作,然后进行reduce操作,最后将计算结果存储到HDFS中。 运行时环境是,由JobTracker和TaskTracker组成,JobTracker进行资源管理和作业控制。Task 阅读全文
posted @ 2019-12-05 16:25 清泉白石 阅读(582) 评论(0) 推荐(0) 编辑
摘要:YARN产生的背景 Hadoop相关概念 Hadoop 1.0 由HDFS、MapReduce组成。 Hadoop 2.0 克服1.0中HDFS和MapReduce存在的各种问题而提出的。 YARN是Hadoop中的资源管理系统。 基本架构 The Scheduler is responsible 阅读全文
posted @ 2019-12-05 15:59 清泉白石 阅读(612) 评论(0) 推荐(0) 编辑
摘要:HDFS(Hadoop Distributed File System)Hadoop分布式文件系统。 一、HDFS产生的背景 随着数据量越来越大,如果大到一台主机的磁盘都存放不下,该如何解决这个问题。一种思路是将数据分片放到多台主机上。如果放到多台主机上,又该怎么去管理,如果有些主机宕机了,数据丢失 阅读全文
posted @ 2019-12-05 15:11 清泉白石 阅读(2068) 评论(0) 推荐(0) 编辑
摘要:一、基本概念 The Apache Hive™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried 阅读全文
posted @ 2019-12-04 21:30 清泉白石 阅读(7167) 评论(0) 推荐(1) 编辑
摘要:基础架构 Flume is a distributed, reliable(可靠地), and available service for efficiently(高效地) collecting, aggregating, and moving large amounts of log data. 阅读全文
posted @ 2019-12-02 22:25 清泉白石 阅读(6959) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示