摘要: 什么是数据卷(Data Volumes)? 由于容器是朝生夕死的, 在生产环境中我们为了保证数据不丢失, 往往需要对数据进行持久化, 或在多个容器之间进行数据共享, 而数据卷就是解决这个需求的方案。 数据卷介绍 默认位置: /var/lib/docker/volumes 是容器可以访问, 但位置不在 阅读全文
posted @ 2020-10-12 05:06 wellDoneGaben 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 什么是Hyperloglog? 一个在大数据量下统计基数的算法, 占用内存小, 误差小, 但是会损失一定精度(Kylin中需要高精度可以用bitmap)。 作为数据人, 我们为何要了解它? 它与我们的部分实际业务是有关联的, 理解原理能更好的做好工作。 应用了Hyperloglog算法的框架: Re 阅读全文
posted @ 2020-10-07 12:11 wellDoneGaben 阅读(1433) 评论(0) 推荐(0) 编辑
摘要: 1.1 机器配置 系统: Centos7 master: 32G 内存, 500G 磁盘 (1台) segment: 64G 内存, 2T 磁盘 (10台) 1.2 域名解析配置 登录各台主机, vim /etc/hosts, 将IP和域名映射配置添加到末尾, 从而使5台机器能通过域名访问。 127 阅读全文
posted @ 2020-09-20 20:27 wellDoneGaben 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 线程间通信的模型: 共享内存 消息传递 我们来做道题理解一下 题目: 有两个线程A、B,A线程向一个集合里面依次添加元素"abc"字符串,一共添加十次,当添加到第五次的时候,希望B线程能够收到A线程的通知,然后B线程执行相关的业务操作。 方法1: 使用volatile关键字 使用共享内存的思想,大致 阅读全文
posted @ 2020-09-14 17:24 wellDoneGaben 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 分页存储 分页存储管理是将一个进程的逻辑地址空间分成若干个大小相等的片(页/页面), 并为各页加以编号, 从0开始。 相应地, 也把内存空间分成与页面相同大小的若干个存储块(物理块/页框), 也同样加以编号。 在进程分配内存时, 以块为单位将进程中的若干个页分别装入到多个key不相邻接的物理块中。 阅读全文
posted @ 2020-09-01 15:30 wellDoneGaben 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 最近做了greenplum 4.3 --> greenplum 6.9 的迁移升级, 踩坑无数, 先写个总结: 迁移方案: 构建新集群, 再将老集群数据迁移到新集群。 坑 自带的gptransfer不能用, 执行时会报一个参数不存在。 最终只能回到原始的pg_dump。 理想的方式是gptransf 阅读全文
posted @ 2020-09-01 10:30 wellDoneGaben 阅读(767) 评论(0) 推荐(0) 编辑
摘要: ###1. overcommit_memory是什么? overcommit_memory是一个内核对内存分配的一种策略。 具体可见/proc/sys/vm/overcommit_memory下的值 ###2. overcommit_memory有什么作用? overcommit_memory取值又 阅读全文
posted @ 2020-06-29 14:34 wellDoneGaben 阅读(786) 评论(0) 推荐(0) 编辑
摘要: DAGS(Directed Acyclic Graphs)[有向无环图] DAG是要运行的任务的一组集合, 反应了这些任务间的关系及依赖。 Operators and Tasks DAGS 并不执行任何实际的计算, 相反Operator(操作算子)决定了到底要做什么。 Task(任务): 一旦一个算 阅读全文
posted @ 2020-04-11 15:48 wellDoneGaben 阅读(1375) 评论(0) 推荐(0) 编辑
摘要: 通过pip 包方式安装 airflow python3的话需要有pymysql包, 没有的话安装: 在MySQL上配置airflow相关表 vim ~/airflow/airflow.cfg 修改airflow配置文件, 修改以下两项: 初始化数据库 若之前没有初始化 airflow initdb 阅读全文
posted @ 2020-04-09 17:51 wellDoneGaben 阅读(568) 评论(0) 推荐(0) 编辑
摘要: 需要先部署jdk环境 这次通过手工部署的方式, 先上传jdk的tar包 解压到指定目录 vim /etc/profile 修改环境变量添加jdk环境 source /etc/profile 使配置生效 查看jdk版本 搭建Zookeeper集群 先创建节点文件夹 设定机器ip 运行节点1 运行节点2 阅读全文
posted @ 2020-04-08 18:37 wellDoneGaben 阅读(2470) 评论(0) 推荐(0) 编辑