摘要:
date: 2020-04-21 19:38:00 updated: 2020-04-24 10:26:00 DataSkew 数据倾斜 1. Hive 里的数据倾斜 1.1 null值 空值 尽量提前过滤,或者把无效值替换成随机字符串,比如 if(a is null or trim(a) = "" 阅读全文
摘要:
date: 2020-04-21 19:17:00 updated: 2020-06-15 11:22:00 Kafka 1. 知识点 Kafka不能保证消息的全局有序,只能保证消息在partition内有序 每个partition对应于一个log文件,该log文件中存储的就是生产者生成的数据,生产 阅读全文
摘要:
date: 2020-04-21 19:17:00 updated: 2020-04-23 08:38:00 Zookeeper 1. 知识点 ZooKeeper 集群中包含 Leader、Follower 以及 Observer 三个角色: Leader:负责进行投票的发起和决议,更新系统状态,L 阅读全文
摘要:
date: 2020-04-01 17:00:00 updated: 2020-04-01 17:00:00 Bloom Filter 布隆过滤器 之前的一版笔记 点此跳转 1. 什么是布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data str 阅读全文
摘要:
date: 2020-04-01 14:25:00 updated: 2020-04-01 14:25:00 常见的Python运行时错误 摘自 菜鸟学Python 公众号 1. SyntaxError:invalid syntax 忘记在 if,for,def,elif,else,class 等声 阅读全文
摘要:
date: 2020-03-31 14:09:00 updated: 2020-06-15 11:16:00 Flume 1. Flume 日志采集 读数据 组件是 resource 缓存数据 channel 原因是读写速度的不一致,可以缓存在内存或本地文件,临时储存。看做一个数据的缓冲区(数据队列 阅读全文
摘要:
date: 2020-03-31 14:09:00 updated: 2020-06-29 17:14:00 HBase 1. 特性 rowkey 行键(自定义,但是必须有,而且唯一);列族,列族里储存的是 k,v 的形式,并且 v 可以储存多个不同的值,根据时间戳来判断版本,默认返回最近更新的版本 阅读全文
摘要:
date: 2020-03-14 17:00:00 updated: 2020-03-14 18:00:00 Docker启动Mysql镜像 管理员权限!!! docker run -p 3306:3306 --name mysql01 -e MYSQL_ROOT_PASSWORD=123456 - 阅读全文
摘要:
date: 2020-02-10 09:10:00 updated: 2020-02-10 11:20:00 Python之Flask框架 1. 项目结构 DemandSys blueprints config models static templates app.py blueprints -- 阅读全文
摘要:
date: 2020-02-10 09:10:00 updated: 2020-03-24 16:50:00 SqlAlchemy 1. 理解 之前使用的是 pymysql 插件,类似于 JDBC 的连接方式,通过写大量的 sql 语句来进行关联表、筛选字段等功能。SqlAlchemy 和 Flas 阅读全文