摘要:
新开分类,增加职业规划随想,用于记录自己对于以后的职业畅想。 畅想自己在2019-2023年这4年期间,自己从基础的平台开发运营, 到各种开源组件的学习应用,再到一个CRUD的大数据工程师。自己一路走来,更多是像一名技师,孰能生巧,唯手熟尔。 如今开一博客,记录日常解决问题,新技术探索学习。 也探讨 阅读全文
摘要:
HBase 架构与读取流程 HBase RowKey 设计 HBase 是三维有序存储的,通过rowkey,column key(column family qulifier) 和TimeStamp 这三个维度确定唯一的cell 数据。 HBase中rowkey可标识一行记录,在HBase中共有2种 阅读全文
摘要:
Background Spark 配置log4j2,并且解决Kafka Kerberos 认证问题。 Using the new Spark log collect architecture: Spark Log ==> Kafka ==> NIFI ==> Splunk. Through this 阅读全文
摘要:
Hive SQL 优化一:https://www.jianshu.com/p/8e2f2f0d4b6c 优化二:https://www.jianshu.com/p/deb4a6f91d3b 注: 工作中常用的优化方式,还是以分区裁剪,join优化,SQL处理数据倾斜为主。后续公司逐渐会使用Hive 阅读全文
摘要:
Index Flink面试题 1. Flink 与Spark区别? 2. Flink组件栈 3. Flink架构中的角色 4. Flink程序执行流程图 5. Flink几个双流join算子 6. Flink分区 7. Flink窗口函数种类 8. 对于滚动窗口的超时数据,如何处理 9. Flink 阅读全文
摘要:
flink一致性详解 阅读全文
摘要:
学习内容: 状态的功能 状态的分类 状态的开发 Checkpoint 重启策略 StateBackend Savepoint 什么是状态 后面批次的计算结果是基于前面批次的计算结果进行处理,而相对的Spark/MR有固定的数据源批次,是无状态的。 状态的分类 状态主要分为3类: Keyed Stat 阅读全文
摘要:
背景 组件:Kubernetes,Gitlab,Jenkins 最近基于Flask开发了小型web后端。通过CI/CD进行发布部署,记录下整个CI/CD流程。 流程 Gitlab和Jenkins项目关联 设置项目 构建Dockerfile 提前构建好Docker镜像, 包含环境需要的依赖。 FROM 阅读全文
摘要:
kubernetes本地搭建版本选择 CentOS Linux release 7.7.1908 kubernetesVersion: v1.17.0 weave-kube:2.6.0 ceph/ceph:v14.2.6 CentOS 环境准备 3台机器环境检查 master内存至少4GiB 禁用s 阅读全文
摘要:
安装kubernetes遇见问题 1. , 查看发现coredns readiness 一直unhealthy, 并且一直报503 2. 发现以下错误coredns dial tcp 10.96.0.1:443: connect: no route to host 原因 使用kubeadm rese 阅读全文