随笔档案「2021年9月」 - 碧水斜茶

Hadoop MapReduce 架构解析

摘要：Hadoop MapReduce 架构 hadoop MapReduce 采用了Master/Slave架构，具体如下图所示。它主要由以下几个组件组成：Client、JobTracker、TaskTracker和Task。 1.Client 用户编写的Map Reduce程序通过Client提交到J 阅读全文

posted @ 2021-09-30 19:14 碧水斜茶阅读(396) 评论(0) 推荐(0)

flin高级2

摘要：6. TaskManager在集群启动过程中起到什么作用？ TaskManager的启动流程较为简单：启动类：org.apache.flink.runtime.taskmanager.TaskManager 核心启动方法： selectNetworkInterfaceAndRunTaskMana 阅读全文

posted @ 2021-09-29 16:05 碧水斜茶阅读(60) 评论(0) 推荐(0)

es

摘要：ElasticSearch 1、准备工作安装Centos7、建议内存2G以上、安装java1.8环境 2、基本配置 l 设置IP地址 vi /etc/sysconfig/network-scripts/ifcfg-ens33 # 网络重置 service network restart l 添加用阅读全文

posted @ 2021-09-29 15:42 碧水斜茶阅读(333) 评论(0) 推荐(0)

flink面试题高级1

摘要：1. Flink Job的提交流程用户提交的Flink Job会被转化成一个DAG任务运行，分别是：StreamGraph、JobGraph、ExecutionGraph，Flink中JobManager与TaskManager，JobManager与Client的交互是基于Akka工具包的，是通阅读全文

posted @ 2021-09-27 17:42 碧水斜茶阅读(127) 评论(0) 推荐(0)

算法题3

摘要：5.爬楼梯：时间复杂度：循环执行n次，每次花费常数的时间代价，即O(n)、空间复杂度：常数个变量作为辅助空间，即O(1)； class Solution{ public int climbStairs(int n){ int p = 0, q = 0, r = 1; for(int i = 1; 阅读全文

posted @ 2021-09-26 21:53 碧水斜茶阅读(59) 评论(0) 推荐(0)

算法题2

摘要：3.两数相加时间复杂度和空间复杂度均为O(max(m,n))， m,n 为两个链表的长度； class Solution{ public ListNode addTwoNumbers(ListNode l1, ListNode l2){ ListNode head = null, tail = n 阅读全文

posted @ 2021-09-24 22:46 碧水斜茶阅读(328) 评论(0) 推荐(0)

如何建设实时数仓

摘要：1 为什么要建设实时数仓在开始说如何建设实时数仓之前，我们先说一下建设实时数仓的目的，实时数仓解决了什么问题。其实在很多情况下，我们对于实时数仓的定位可能是没有那么准确的。我们都知道，传统数仓一个非常重要的功能是用于记录历史，而实时数仓恰恰相反，它更重视处理当前的状态。因此，我们创建实时数仓的阅读全文

posted @ 2021-09-23 21:24 碧水斜茶阅读(679) 评论(0) 推荐(0)

flink中级面试题3

摘要：11. Flink任务延迟高，想解决这个问题，你会如何入手？在Flink的后台任务管理中，我们可以看到Flink的哪个算子和task出现了反压。最主要的手段是资源调优和算子调优。资源调优即是对作业中的Operator的并发数（parallelism）、CPU（core）、堆内存（heap_memo 阅读全文

posted @ 2021-09-22 17:36 碧水斜茶阅读(132) 评论(0) 推荐(0)

Elasticsearch数据存储方式

摘要：Elasticsearch数据存储方式 2.7.1、Elasticsearch存储方式（1）面向文档 Elasticsearch是面向文档(document oriented)的，这意味着它可以存储整个对象或文档(document)。然而它不仅仅是存储，还会索引(index)每个文档的内容使之可以阅读全文

posted @ 2021-09-18 10:12 碧水斜茶阅读(1599) 评论(0) 推荐(1)

算法题

摘要：1、反转链表用迭代方法定义两个指针curr和prev，时间复杂度为O(n)，空间复杂度为O(1); class Solution{ public ListNode reverseList(ListNode head){ ListNode prev = null; ListNode curr = h 阅读全文

posted @ 2021-09-18 10:11 碧水斜茶阅读(38) 评论(0) 推荐(0)

elk介绍

摘要：一、ElasticSearch简介一个完整的集中式日志系统，需要包含以下几个主要特点：收集－能够采集多种来源的日志数据传输－能够稳定的把日志数据传输到中央系统存储－如何存储日志数据分析－可以支持 UI 分析警告－能够提供错误报告，监控机制 ELK提供了一整套解决方案，并且都是开源软件，之阅读全文

posted @ 2021-09-15 17:35 碧水斜茶阅读(214) 评论(0) 推荐(0)

flink中级面试题2

摘要：6. Flink 的 kafka 连接器有什么特别的地方？ Flink源码中有一个独立的connectors模块，所有的其他connector都依赖于此模块，Flink 在1.9版本发布的全新kafka连接器，摒弃了之前连接不同版本的kafka集群需要依赖不同版本的connector这种做法，只需要阅读全文

posted @ 2021-09-15 17:34 碧水斜茶阅读(97) 评论(0) 推荐(0)

flink面试题中级

摘要：1. Flink是如何支持批流一体的？本道面试题考察的其实就是一句话：Flink的开发者认为批处理是流处理的一种特殊情况。批处理是有限的流处理。Flink 使用一个引擎支持了DataSet API 和 DataStream API。 2. Flink是如何做到高效的数据交换的？在一个Flink 阅读全文

posted @ 2021-09-13 18:12 碧水斜茶阅读(162) 评论(0) 推荐(0)

Flink生产环境中的并行度和资源设置

摘要：在使用Flink处理生产实际问题时，并行度和资源的配置调优是经常要面对的工作之一，如果有效和正确地配置并行度是任务能够高效执行的必要条件。 Flink中的计算资源首先理解Flink中的计算资源的核心概念，比如Slot、Chain、Task等，这有助于我们快速定位生产中的问题。 Task Slot 阅读全文

posted @ 2021-09-10 18:25 碧水斜茶阅读(938) 评论(0) 推荐(0)

HQL表操作

摘要：1 创建表 1.1 语法 #1. CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name # 表名[(col_name data_type [COMMENT col_comment], ...)] # 列名[C 阅读全文

posted @ 2021-09-09 18:01 碧水斜茶阅读(226) 评论(0) 推荐(0)

在核心交易分析中完成如下指标的计算

摘要：为了计算方便在dws层生产一张每日销售数据 -- 创建一张日期维度表，存放日期相关维度 -- 在订单宽表上增加日期对应维度信息如。订单日，订单周，订单周开始时间，订单月，订单季度，订单年 DROP TABLE IF EXISTS dws.dws_trade_orders_w; create tabl 阅读全文

posted @ 2021-09-08 17:30 碧水斜茶阅读(92) 评论(0) 推荐(0)

flink面试题

摘要：16. Flink中有哪些窗口？ Flink 支持两种划分窗口的方式，按照time和count。如果根据时间划分窗口，那么它就是一个time-window 如果根据数据划分窗口，那么它就是一个count-window。flink支持窗口的两个重要属性（size和interval）如果size=int 阅读全文

posted @ 2021-09-08 17:29 碧水斜茶阅读(647) 评论(0) 推荐(0)

Flink基础

摘要：11 Flink的并行度了解吗？Flink的并行度设置是怎样的？ Flink中的任务被分为多个并行任务来执行，其中每个并行的实例处理一部分数据。这些并行实例的数量被称为并行度。我们在实际生产环境中可以从四个不同层面设置并行度：操作算子层面(Operator Level) 执行环境层面(Execut 阅读全文

posted @ 2021-09-06 16:14 碧水斜茶阅读(90) 评论(0) 推荐(0)

flink常见面试题

摘要：1 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务： DataSet API，对静态数据进行批处理操作，将静态数据抽阅读全文

posted @ 2021-09-03 17:56 碧水斜茶阅读(1194) 评论(0) 推荐(1)

Hadoop MapReduce 作业的生命周期

摘要：假设用户编写了一个MapReduce程序，并将其打包成xxx.jar文件，并提交作业，该作业的运行过程如图所示：这个过程分为以下5个步骤：作业提交与初始化。用户提交作业后，首先由JobClient实例将作业相关信息，（比如讲程序jar包、作业配置文件、分片元信息文件等）上传到分不是文件系统（一阅读全文

posted @ 2021-09-02 19:06 碧水斜茶阅读(94) 评论(0) 推荐(0)

大数据面试题解析之数据处理篇-Flink

摘要：1.Flink基础 1. 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务： DataSet API，对静态数据进行批阅读全文

posted @ 2021-09-01 17:04 碧水斜茶阅读(397) 评论(0) 推荐(0)

09 2021 档案

公告