摘要:
总结: 1.登录root用户 2.执行:sync命令 3.执行:echo 3 > /proc/sys/vm/drop_caches 1)缓存机制介绍在Linux系统中,为了提高文件系统性能,内核利用一部分物理内存分配出缓冲区,用于缓存系统操作和数据文件,当内核收到读写的请求时,内核先去缓存区找是否有 阅读全文
摘要:
一、问题: 启动flink项目失败,日志异常:java.lang.OutOfMemoryError: unable to create new native thread 二、解决办法: 1、 关于这个问题,一开始猜想是因消息队列(activemq)引起的,因为处理数据较多,开启的线程数较多导致,因 阅读全文
摘要:
概述 默认:Flink保证并行度与kafka partition一对一详解(一) 当Flink并行度与分区不一致? 原理 采用取模运算;平衡 kafka partition与并行度关系。 取模运算原理见取模运算理解 计算公式 kafkaPartition mod 并行度总数 = 分配到并行度中的pa 阅读全文
摘要:
我们都知道flink 连接kafka时,默认是一个partition对应一个thread,它究竟是怎么实现的呢?以及到我们自己定义 RichParallelSourceFunction 的时候如何借鉴这部分代码呢? 我们一起来看一下(基于flink-1.8) 看过flink kafka连接器源码的同 阅读全文
摘要:
Flink 提供了专门的 Kafka 连接器,向 Kafka topic 中读取或者写入数据。Flink Kafka Consumer 集成了 Flink 的 Checkpoint 机制,可提供 exactly-once 的处理语义。为此,Flink 并不完全依赖于跟踪 Kafka 消费组的偏移量, 阅读全文
摘要:
TaskManger与Slots Flink中每一个worker(TaskManager)都是一个JVM进程,它可能会在独立的线程上执行一个或多个subtask。为了控制一个worker能接收多少个task,worker通过task slot来进行控制(一个worker至少有一个task slot) 阅读全文
摘要:
在上一篇关于物化视图的文章中, 我们介绍了一种构造ClickHouse物化视图的方法, 该视图使用SummingMergeTree引擎计算总和和计数. SummingMergeTree可以为这两种类型的聚合使用普通的SQL语法. 我们还让物化视图定义自动为数据创建基础表(.inner表). 这两种技 阅读全文
摘要:
我们喜欢ClickHouse的物化视图. 物化视图可以实现聚合计算, 从Kafka读取数据, 实现最后点查询(last point queries)以及重组表主键索引和排序顺序. 除了这些功能之外, 物化视图可以在大量节点上很好地扩缩, 并可以处理大型数据集. 它们是ClickHouse的独特功能之 阅读全文
摘要:
背景 前面介绍了ClickHouse相关的系列文章,该系列文章包括了安装、权限管理、副本分片、配置说明等。这次介绍一些ClickHouse相关的系统命令,如重载配置文件、关闭服务和进程、停止和启动后台任务等。具体的信息可以看官方文档说明,顺也说明下set和optimize的命令。 说明 SYSTEM 阅读全文
摘要:
背景 在之前写的文章用户权限管理里已经介绍了应该如何设置用户密码以及权限控制。但是只是针对修改配置文件的方式来进行用户权限管理,其实ClickHouse也支持基于RBAC(Role-Based Access Control)的访问控制管理,即通过SQL-driven来进行管理。在 RBAC 中,权限 阅读全文
摘要:
背景 现在ClickHouse已经能正常使用起来了,包括副本和分片。因为ClickHouse已经可以提供服务了,现在需要关心的就是服务期间该数据库的各项性能指标的情况,如CPU、内存、查询等等。其实在安装完ClickHouse之后,有个内置的数据库system,该库下保存了很多需要的信息,类似于My 阅读全文
摘要:
背景 本文开始说明ClickHouse的副本与分片,和其他数据库一样,ClickHouse也会出现单节点故障和单节点资源到达上限的情况。所以针对上面的2个问题,就出现了副本和分片。副本:能避免单节点故障的问题,类似于MySQL的Replicate和MongoDB的Replicate Set。分片:解 阅读全文
摘要:
背景 最近花了些时间看了下ClickHouse文档,发现它在OLAP方面表现很优异,而且相对也比较轻量和简单,所以准备入门了解下该数据库系统。在介绍了安装和用户权限管理之后,本文对其配置文件做下相关的介绍说明。 说明 ClickHouse的配置文件是config.xml,默认在/etc/clickh 阅读全文
摘要:
背景 最近花了些时间看了下ClickHouse文档,发现它在OLAP方面表现很优异,而且相对也比较轻量和简单,所以准备入门了解下该数据库系统。在安装完之后首先做的应该如何设置用户密码以及权限控制。因为和MySQL、MongoDB等数据库的用户管理完全不一样,为方便自己以后直接查阅,本文对其用户权限管 阅读全文
摘要:
本文探讨clickhouse的1个经典问题: 如何模拟实现记录更新和删除效果?(因为clickhouse自带的update/delete实现极为低效) 跟着我的例子走吧。 创建数据库db2 CREATE DATABASE IF NOT EXISTS db2 ON CLUSTER mycluster 阅读全文
摘要:
clickhouse是当下最流行的OLAP产品,我总结其代表能力体现为: 存储数据:与presto等直接读取外部数据进行计算的方式不同,clickhouse大部分情况是冗余存储一份数据的,所以clickhouse需要提供多种数据集成的方案与生态。 即席查询:典型ad-hoc产品,海量数据秒出数据,计 阅读全文
摘要:
ClickHouse 是俄罗斯最大的搜索引擎Yandex在2016年开源的数据库管理系统(DBMS),主要用于联机分析处理(OLAP)。其采用了面向列的存储方式,性能远超传统面向行的DBMS,近几年受到广泛关注。 本文将介绍ClickHouse MergeTree系列表引擎的相关知识,并通过示例分析 阅读全文
摘要:
结论:生产环境推荐使用yarn方式部署 使用standalone遇到的问题 1) 同一个standalone cluster中的job相互抢占资源,而standalone cluster的模式仅仅只能通过task slot在task manager的堆内内存上做到资源隔离。同时由于前文提到过的Fli 阅读全文