09 2021 档案

摘要:Hadoop MapReduce 架构 hadoop MapReduce 采用了Master/Slave架构,具体如下图所示。它主要由以下几个组件组成:Client、JobTracker、TaskTracker和Task。 1.Client 用户编写的Map Reduce程序通过Client提交到J 阅读全文
posted @ 2021-09-30 19:14 碧水斜茶 阅读(301) 评论(0) 推荐(0) 编辑
摘要:6. TaskManager在集群启动过程中起到什么作用? TaskManager的启动流程较为简单: 启动类:org.apache.flink.runtime.taskmanager.TaskManager 核心启动方法 : selectNetworkInterfaceAndRunTaskMana 阅读全文
posted @ 2021-09-29 16:05 碧水斜茶 阅读(50) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 1、准备工作 安装Centos7、建议内存2G以上、安装java1.8环境 2、基本配置 l 设置IP地址 vi /etc/sysconfig/network-scripts/ifcfg-ens33 # 网络重置 service network restart l 添加用 阅读全文
posted @ 2021-09-29 15:42 碧水斜茶 阅读(309) 评论(0) 推荐(0) 编辑
摘要:1. Flink Job的提交流程 用户提交的Flink Job会被转化成一个DAG任务运行,分别是:StreamGraph、JobGraph、ExecutionGraph,Flink中JobManager与TaskManager,JobManager与Client的交互是基于Akka工具包的,是通 阅读全文
posted @ 2021-09-27 17:42 碧水斜茶 阅读(113) 评论(0) 推荐(0) 编辑
摘要:5.爬楼梯: 时间复杂度:循环执行n次,每次花费常数的时间代价,即O(n)、空间复杂度:常数个变量作为辅助空间,即O(1); class Solution{ public int climbStairs(int n){ int p = 0, q = 0, r = 1; for(int i = 1;  阅读全文
posted @ 2021-09-26 21:53 碧水斜茶 阅读(46) 评论(0) 推荐(0) 编辑
摘要:3.两数相加 时间复杂度和空间复杂度均为O(max(m,n)), m,n 为两个链表的长度; class Solution{ public ListNode addTwoNumbers(ListNode l1, ListNode l2){ ListNode head = null, tail = n 阅读全文
posted @ 2021-09-24 22:46 碧水斜茶 阅读(217) 评论(0) 推荐(0) 编辑
摘要:1 为什么要建设实时数仓 在开始说如何建设实时数仓之前,我们先说一下建设实时数仓的目的,实时数仓解决了什么问题。 其实在很多情况下,我们对于实时数仓的定位可能是没有那么准确的。我们都知道,传统数仓一个非常重要的功能是用于记录历史,而实时数仓恰恰相反,它更重视处理当前的状态。 因此,我们创建实时数仓的 阅读全文
posted @ 2021-09-23 21:24 碧水斜茶 阅读(585) 评论(0) 推荐(0) 编辑
摘要:11. Flink任务延迟高,想解决这个问题,你会如何入手? 在Flink的后台任务管理中,我们可以看到Flink的哪个算子和task出现了反压。最主要的手段是资源调优和算子调优。资源调优即是对作业中的Operator的并发数(parallelism)、CPU(core)、堆内存(heap_memo 阅读全文
posted @ 2021-09-22 17:36 碧水斜茶 阅读(96) 评论(0) 推荐(0) 编辑
摘要:Elasticsearch数据存储方式 2.7.1、Elasticsearch存储方式 (1)面向文档 Elasticsearch是面向文档(document oriented)的,这意味着它可以存储整个对象或文档(document)。然而它不仅仅是存储,还会索引(index)每个文档的内容使之可以 阅读全文
posted @ 2021-09-18 10:12 碧水斜茶 阅读(1474) 评论(0) 推荐(1) 编辑
摘要:1、反转链表 用迭代方法定义两个指针curr和prev,时间复杂度为O(n),空间复杂度为O(1); class Solution{ public ListNode reverseList(ListNode head){ ListNode prev = null; ListNode curr = h 阅读全文
posted @ 2021-09-18 10:11 碧水斜茶 阅读(25) 评论(0) 推荐(0) 编辑
摘要:一、ElasticSearch简介 一个完整的集中式日志系统,需要包含以下几个主要特点: 收集-能够采集多种来源的日志数据 传输-能够稳定的把日志数据传输到中央系统 存储-如何存储日志数据 分析-可以支持 UI 分析 警告-能够提供错误报告,监控机制 ELK提供了一整套解决方案,并且都是开源软件,之 阅读全文
posted @ 2021-09-15 17:35 碧水斜茶 阅读(180) 评论(0) 推荐(0) 编辑
摘要:6. Flink 的 kafka 连接器有什么特别的地方? Flink源码中有一个独立的connectors模块,所有的其他connector都依赖于此模块,Flink 在1.9版本发布的全新kafka连接器,摒弃了之前连接不同版本的kafka集群需要依赖不同版本的connector这种做法,只需要 阅读全文
posted @ 2021-09-15 17:34 碧水斜茶 阅读(62) 评论(0) 推荐(0) 编辑
摘要:1. Flink是如何支持批流一体的? 本道面试题考察的其实就是一句话:Flink的开发者认为批处理是流处理的一种特殊情况。批处理是有限的流处理。Flink 使用一个引擎支持了DataSet API 和 DataStream API。 2. Flink是如何做到高效的数据交换的? 在一个Flink 阅读全文
posted @ 2021-09-13 18:12 碧水斜茶 阅读(134) 评论(0) 推荐(0) 编辑
摘要:在使用Flink处理生产实际问题时,并行度和资源的配置调优是经常要面对的工作之一,如果有效和正确地配置并行度是任务能够高效执行的必要条件。 Flink中的计算资源 首先理解Flink中的计算资源的核心概念,比如Slot、Chain、Task等,这有助于我们快速定位生产中的问题。 Task Slot 阅读全文
posted @ 2021-09-10 18:25 碧水斜茶 阅读(791) 评论(0) 推荐(0) 编辑
摘要:1 创建表 1.1 语法 #1. CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name # 表名[(col_name data_type [COMMENT col_comment], ...)] # 列名[C 阅读全文
posted @ 2021-09-09 18:01 碧水斜茶 阅读(196) 评论(0) 推荐(0) 编辑
摘要:为了计算方便在dws层生产一张每日销售数据 -- 创建一张日期维度表,存放日期相关维度 -- 在订单宽表上增加日期对应维度信息如。订单日,订单周,订单周开始时间,订单月,订单季度,订单年 DROP TABLE IF EXISTS dws.dws_trade_orders_w; create tabl 阅读全文
posted @ 2021-09-08 17:30 碧水斜茶 阅读(61) 评论(0) 推荐(0) 编辑
摘要:16. Flink中有哪些窗口? Flink 支持两种划分窗口的方式,按照time和count。如果根据时间划分窗口,那么它就是一个time-window 如果根据数据划分窗口,那么它就是一个count-window。flink支持窗口的两个重要属性(size和interval)如果size=int 阅读全文
posted @ 2021-09-08 17:29 碧水斜茶 阅读(574) 评论(0) 推荐(0) 编辑
摘要:11 Flink的并行度了解吗?Flink的并行度设置是怎样的? Flink中的任务被分为多个并行任务来执行,其中每个并行的实例处理一部分数据。这些并行实例的数量被称为并行度。我们在实际生产环境中可以从四个不同层面设置并行度: 操作算子层面(Operator Level) 执行环境层面(Execut 阅读全文
posted @ 2021-09-06 16:14 碧水斜茶 阅读(58) 评论(0) 推荐(0) 编辑
摘要:1 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽 阅读全文
posted @ 2021-09-03 17:56 碧水斜茶 阅读(1133) 评论(0) 推荐(1) 编辑
摘要:假设用户编写了一个MapReduce程序,并将其打包成xxx.jar文件,并提交作业,该作业的运行过程如图所示: 这个过程分为以下5个步骤: 作业提交与初始化。 用户提交作业后,首先由JobClient实例将作业相关信息,(比如讲程序jar包、作业配置文件、分片元信息文件等)上传到分不是文件系统(一 阅读全文
posted @ 2021-09-02 19:06 碧水斜茶 阅读(69) 评论(0) 推荐(0) 编辑
摘要:1.Flink基础 1. 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批 阅读全文
posted @ 2021-09-01 17:04 碧水斜茶 阅读(333) 评论(0) 推荐(0) 编辑