lillcol

[置顶] 大数据系列4：Yarn以及MapReduce 2

摘要：系列文章：大数据系列：一文初识Hdfs 大数据系列2：Hdfs的读写操作大数据谢列3：Hdfs的HA实现通过前文，我们对Hdfs的已经有了一定的了解，本文将继续之前的内容，介绍Yarn与Yarn在MapReduce 2的应用 MapReduce1 作业流程在介绍Yarn之前，我们先介绍一下M 阅读全文

posted @ 2021-01-29 18:30 lillcol 阅读(770) 评论(0) 推荐(2) 编辑

[置顶] 大数据系列3：Hdfs的HA实现

摘要：在之前的文章：大数据系列：一文初识Hdfs ，大数据系列2：Hdfs的读写操作中Hdfs的组成、读写有简单的介绍。在里面介绍Secondary NameNode和Hdfs读写的流程。并且在文章结尾也说了，Secondary NameNode并不是我常说的HA，（High Availabili 阅读全文

posted @ 2021-01-27 18:44 lillcol 阅读(680) 评论(0) 推荐(0) 编辑

[置顶] 大数据系列2：Hdfs的读写操作

摘要：在前文大数据系列1：一文初识Hdfs中，我们对Hdfs有了简单的认识。在本文中，我们将会简单的介绍一下Hdfs文件的读写流程，为后续追踪读写流程的源码做准备。 Hdfs 架构首先来个Hdfs的架构图，图中中包含了Hdfs 的组成与一些操作。对于一个客户端而言，对于Hdfs的操作不外乎也就读写两阅读全文

posted @ 2021-01-26 17:48 lillcol 阅读(809) 评论(0) 推荐(1) 编辑

[置顶] 大数据系列1：一文初识Hdfs

摘要：最近有位同事经常问一些Hadoop的东西，特别是Hdfs的一些细节，有些记得不清楚，所以趁机整理一波。会按下面的大纲进行整理：简单介绍Hdfs 简单介绍Hdfs读写流程介绍Hdfs HA实现方式介绍Yarn统一资源管理器追一下Hdfs读写的源码同时也有其他方面的整理，有兴趣可以看看：算阅读全文

posted @ 2021-01-25 12:01 lillcol 阅读(616) 评论(0) 推荐(1) 编辑

[置顶] 算法系列-动态规划(4)：买卖股票的最佳时机

摘要：此系列为动态规划相关文章。系列历史文章：算法系列-动态规划(1)：初识动态规划算法系列-动态规划(2)：切割钢材问题算法系列-动态规划(3)：找零钱、走方格问题算法系列-动态规划(4)：买卖股票的最佳时机新生韭菜罗拉自从上次看到八哥收藏旧币，罗拉也想给自己捣鼓个副业，赚点零花钱。于是阅读全文

posted @ 2020-12-31 23:01 lillcol 阅读(1195) 评论(0) 推荐(1) 编辑

[置顶] 算法系列-动态规划(3)：找零钱、走方格问题

摘要：最近在捣鼓算法，所以写一些关于算法的文章此系列为动态规划相关文章。系列历史文章：算法系列-动态规划(1)：初识动态规划算法系列-动态规划(2)：切割钢材问题算法系列-动态规划(3)：找零钱、走方格问题找零钱问题，凑数问题最近老币越来越值钱，是投资的一个好方向。这不，八哥从某鱼入手了几阅读全文

posted @ 2020-12-17 17:57 lillcol 阅读(1244) 评论(1) 推荐(2) 编辑

[置顶] 数据库仓库系列：(一)什么是数据仓库，为什么要数据仓库

摘要：最近全程参与了数仓的重建工作，颇有些心得。于是萌生了写一篇关于数据仓库文章的想法。编写此文章的过程中会查找更多的资料和结合自己工作经历，确保内容质量。即是自己工作的记录和总结，也是更系统的捋一遍数仓。文章会分为三个部分：第一部分：介绍什么是数据仓库第二部分：如何设计数据仓库第三部分：从阅读全文

posted @ 2020-12-12 13:48 lillcol 阅读(3014) 评论(0) 推荐(5) 编辑

[置顶] 算法系列-动态规划(2)：切割钢材问题

摘要：切割钢材问题接上回说到，斐波那契数列是动态规划最简单应用，但动态规划却不是为了用来算那数列。当时留了个尾巴，就是切割钢材的问题。不同长度的钢材价格不一样，我现在有一根长度为n的钢材，要怎么切割才能利益最大化？其中钢材的价格如下长度 0 1 2 3 4 5 6 7 8 9 10 价格 0 1 阅读全文

posted @ 2020-12-06 21:35 lillcol 阅读(1815) 评论(0) 推荐(1) 编辑

[置顶] 算法系列-动态规划(1)：初识动态规划

摘要：昨天，罗拉去面试回来，垂头丧气。显然是面试不顺利，我赶忙过去安慰。经过询问才知道，罗拉面试挂在了动态规划。说到动态规划，八哥可就来精神了，于是就结合劳拉的面试题简单的和她介绍了动态规划。事情是这样的，劳拉的面试官给了她一道题，题目如下：有一个数列，规律如下：1、1、2、3、5、8、13... 阅读全文

posted @ 2020-12-01 17:23 lillcol 阅读(580) 评论(4) 推荐(3) 编辑

2021年8月6日

canal同步异常：当表结构变化时，同步失败

摘要：场景 canal 同步Mysql一段时间后突然失败,报如如下错误： 2021-08-06 16:16:51.732 [MultiStageCoprocessor-Parser-Twt_instance-5] WARN c.a.o.canal.parse.inbound.mysql.dbsync.Lo 阅读全文

posted @ 2021-08-06 17:18 lillcol 阅读(2402) 评论(0) 推荐(0) 编辑

2021年6月18日

canal+mysql+kafka实时数据同步安装、配置

摘要： canal+mysql+kafka安装配置概述简介 canal译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费。基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等) 业务 cache 刷新带阅读全文

posted @ 2021-06-18 16:52 lillcol 阅读(4595) 评论(0) 推荐(0) 编辑

2021年6月7日

airflow2.0.2分布式安装文档

摘要：更多内容可关注兔八哥杂谈需要安装的组件组件功能 Airflow Webserver 查询元数据以监控和执行DAGs的web界面。 Airflow Scheduler 它检查元数据数据库中的DAG和任务的状态，在必要时创建新任务，并将任务发送到队列。 Airflow Metadata Datab 阅读全文

posted @ 2021-06-07 18:33 lillcol 阅读(999) 评论(5) 推荐(1) 编辑

2021年6月1日

浅谈spark的数据本地性（data locality）

摘要： spark的数据本地性（data locality） Spark其中一个特性就是数据本地性，简单的说就是“移动数据不如移动计算”。因为数据在网络传输中会有不小的I/O消耗，并且传输距离越长消耗越大。所以，数据本地性可以理解为数据传输距离，而我们的目的就是避免数据在网络中传输或尽量减少传输的距离。阅读全文

posted @ 2021-06-01 18:15 lillcol 阅读(1491) 评论(0) 推荐(0) 编辑

数据质量管理方法

摘要：数据处理的过程数据处理的过程一般如下：数据质量管理(DATA Quality Managenment)是指对上述过程中每个阶段可能出现引发数据质量的问题进行识别、监控、预警等相关管理活动。通过改善和提高组织的管理水平是的数据质量进一步提升。数据质量管理是一个循环管理的过程，其最终目标是通过可阅读全文

posted @ 2021-06-01 16:03 lillcol 阅读(1843) 评论(0) 推荐(0) 编辑

2021年5月18日

Saprk checkpoint、cache、persist的区别

摘要：持久化类型特点 cache 默认存储级别为: RDD.cache():persist(StorageLevel.MEMORY_ONLY)Dataset.cache():MEMORY_AND_DISK persist 可以自定义存储级别，默认:MEMORY_AND_DISK可选：DISK_ONLY, 阅读全文

posted @ 2021-05-18 11:32 lillcol 阅读(294) 评论(0) 推荐(0) 编辑

2021年5月12日

Hbase问题小结(一)

摘要： 1. Hbase读写优化写：批量写、异步批量提交、多线程并发写、使用BulkLoad写入、表优化（压缩算法、预分区、合理的rowkey设计、合理关闭WAL或异步WAL） SKIP_WAL：只写缓存，不写HLog日志。这种方式因为只写内存，因此可以极大的提升写入性能，但是数据有丢失的风险。在实际应阅读全文

posted @ 2021-05-12 16:56 lillcol 阅读(605) 评论(0) 推荐(0) 编辑

公告