摘要: 系列文章: 大数据系列:一文初识Hdfs 大数据系列2:Hdfs的读写操作 大数据谢列3:Hdfs的HA实现 通过前文,我们对Hdfs的已经有了一定的了解,本文将继续之前的内容,介绍Yarn与Yarn在MapReduce 2的应用 MapReduce1 作业流程 在介绍Yarn之前,我们先介绍一下M 阅读全文
posted @ 2021-01-29 18:30 lillcol 阅读(770) 评论(0) 推荐(2) 编辑
摘要: 在之前的文章:大数据系列:一文初识Hdfs , 大数据系列2:Hdfs的读写操作 中Hdfs的组成、读写有简单的介绍。 在里面介绍Secondary NameNode和Hdfs读写的流程。 并且在文章结尾也说了,Secondary NameNode并不是我常说的HA,(High Availabili 阅读全文
posted @ 2021-01-27 18:44 lillcol 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 在前文大数据系列1:一文初识Hdfs中,我们对Hdfs有了简单的认识。 在本文中,我们将会简单的介绍一下Hdfs文件的读写流程,为后续追踪读写流程的源码做准备。 Hdfs 架构 首先来个Hdfs的架构图,图中中包含了Hdfs 的组成与一些操作。 对于一个客户端而言,对于Hdfs的操作不外乎也就读写两 阅读全文
posted @ 2021-01-26 17:48 lillcol 阅读(809) 评论(0) 推荐(1) 编辑
摘要: 最近有位同事经常问一些Hadoop的东西,特别是Hdfs的一些细节,有些记得不清楚,所以趁机整理一波。 会按下面的大纲进行整理: 简单介绍Hdfs 简单介绍Hdfs读写流程 介绍Hdfs HA实现方式 介绍Yarn统一资源管理器 追一下Hdfs读写的源码 同时也有其他方面的整理,有兴趣可以看看: 算 阅读全文
posted @ 2021-01-25 12:01 lillcol 阅读(616) 评论(0) 推荐(1) 编辑
摘要: 此系列为动态规划相关文章。 系列历史文章: 算法系列-动态规划(1):初识动态规划 算法系列-动态规划(2):切割钢材问题 算法系列-动态规划(3):找零钱、走方格问题 算法系列-动态规划(4):买卖股票的最佳时机 新生韭菜罗拉 自从上次看到八哥收藏旧币,罗拉也想给自己捣鼓个副业,赚点零花钱。 于是 阅读全文
posted @ 2020-12-31 23:01 lillcol 阅读(1195) 评论(0) 推荐(1) 编辑
摘要: 最近在捣鼓算法,所以写一些关于算法的文章 此系列为动态规划相关文章。 系列历史文章: 算法系列-动态规划(1):初识动态规划 算法系列-动态规划(2):切割钢材问题 算法系列-动态规划(3):找零钱、走方格问题 找零钱问题,凑数问题 最近老币越来越值钱,是投资的一个好方向。 这不,八哥从某鱼入手了几 阅读全文
posted @ 2020-12-17 17:57 lillcol 阅读(1244) 评论(1) 推荐(2) 编辑
摘要: 最近全程参与了数仓的重建工作,颇有些心得。 于是萌生了写一篇关于数据仓库文章的想法。 编写此文章的过程中会查找更多的资料和结合自己工作经历,确保内容质量。 即是自己工作的记录和总结,也是更系统的捋一遍数仓。 文章会分为三个部分: 第一部分:介绍什么是数据仓库 第二部分:如何设计数据仓库 第三部分:从 阅读全文
posted @ 2020-12-12 13:48 lillcol 阅读(3014) 评论(0) 推荐(5) 编辑
摘要: 切割钢材问题 接上回说到,斐波那契数列是动态规划最简单应用,但动态规划却不是为了用来算那数列。 当时留了个尾巴,就是切割钢材的问题。 不同长度的钢材价格不一样,我现在有一根长度为n的钢材,要怎么切割才能利益最大化? 其中钢材的价格如下 长度 0 1 2 3 4 5 6 7 8 9 10 价格 0 1 阅读全文
posted @ 2020-12-06 21:35 lillcol 阅读(1815) 评论(0) 推荐(1) 编辑
摘要: 昨天,罗拉去面试回来,垂头丧气。显然是面试不顺利,我赶忙过去安慰。 经过询问才知道,罗拉面试挂在了动态规划。 说到动态规划,八哥可就来精神了,于是就结合劳拉的面试题简单的和她介绍了动态规划。 事情是这样的,劳拉的面试官给了她一道题,题目如下: 有一个数列,规律如下:1、1、2、3、5、8、13... 阅读全文
posted @ 2020-12-01 17:23 lillcol 阅读(580) 评论(4) 推荐(3) 编辑
摘要: 场景 canal 同步Mysql一段时间后突然失败,报如如下错误: 2021-08-06 16:16:51.732 [MultiStageCoprocessor-Parser-Twt_instance-5] WARN c.a.o.canal.parse.inbound.mysql.dbsync.Lo 阅读全文
posted @ 2021-08-06 17:18 lillcol 阅读(2402) 评论(0) 推荐(0) 编辑
摘要: canal+mysql+kafka安装配置 概述 简介 canal译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。 基于日志增量订阅和消费的业务包括 数据库镜像 数据库实时备份 索引构建和实时维护(拆分异构索引、倒排索引等) 业务 cache 刷新 带 阅读全文
posted @ 2021-06-18 16:52 lillcol 阅读(4595) 评论(0) 推荐(0) 编辑
摘要: 更多内容可关注兔八哥杂谈 需要安装的组件 组件 功能 Airflow Webserver 查询元数据以监控和执行DAGs的web界面。 Airflow Scheduler 它检查元数据数据库中的DAG和任务的状态,在必要时创建新任务,并将任务发送到队列。 Airflow Metadata Datab 阅读全文
posted @ 2021-06-07 18:33 lillcol 阅读(999) 评论(5) 推荐(1) 编辑
摘要: spark的数据本地性(data locality) Spark其中一个特性就是数据本地性,简单的说就是“移动数据不如移动计算”。 因为数据在网络传输中会有不小的I/O消耗,并且传输距离越长消耗越大。 所以,数据本地性可以理解为数据传输距离,而我们的目的就是避免数据在网络中传输或尽量减少传输的距离。 阅读全文
posted @ 2021-06-01 18:15 lillcol 阅读(1491) 评论(0) 推荐(0) 编辑
摘要: 数据处理的过程 数据处理的过程一般如下: 数据质量管理(DATA Quality Managenment)是指对上述过程中每个阶段可能出现引发数据质量的问题进行识别、监控、预警等相关管理活动。 通过改善和提高组织的管理水平是的数据质量进一步提升。 数据质量管理是一个循环管理的过程,其最终目标是通过可 阅读全文
posted @ 2021-06-01 16:03 lillcol 阅读(1843) 评论(0) 推荐(0) 编辑
摘要: 持久化类型 特点 cache 默认存储级别为: RDD.cache():persist(StorageLevel.MEMORY_ONLY)Dataset.cache():MEMORY_AND_DISK persist 可以自定义存储级别,默认:MEMORY_AND_DISK可选:DISK_ONLY, 阅读全文
posted @ 2021-05-18 11:32 lillcol 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 1. Hbase读写优化 写: 批量写、异步批量提交、多线程并发写、使用BulkLoad写入、表优化(压缩算法、预分区、合理的rowkey设计、合理关闭WAL或异步WAL) SKIP_WAL:只写缓存,不写HLog日志。这种方式因为只写内存,因此可以极大的提升写入性能,但是数据有丢失的风险。在实际应 阅读全文
posted @ 2021-05-12 16:56 lillcol 阅读(605) 评论(0) 推荐(0) 编辑