LZ名約山炮

博客园 首页 新随笔 联系 订阅 管理
上一页 1 2 3 4 5 6 ··· 16 下一页

2021年8月16日 #

摘要: 十二、数据倾斜 12.1 数据倾斜表现 12.1.1 hadoop中的数据倾斜表现 1)有一个多几个Reduce卡住,卡在99.99%,一直不能结束 2)各种container报错OOM 3)异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer 4)伴随着数据倾斜,会出现任务被 阅读全文
posted @ 2021-08-16 19:14 LZ名約山炮 阅读(82) 评论(0) 推荐(0) 编辑

摘要: 六、Flume 6.1 Flume的组成 6.1.1 taildir source 1)断点续传 2)Apache1.7以及CDH1.6产生 3)若遇到无断点续传功能的source怎么办? 自定义 4)taildir挂了怎么办? 不会丢失数据,因为有断点续传,可能会有重复数据 5)如何处理重复数据? 阅读全文
posted @ 2021-08-16 18:10 LZ名約山炮 阅读(203) 评论(0) 推荐(0) 编辑

2021年8月12日 #

摘要: 第 1 章 Explain 查看执行计划(重点) 1.1 创建测试用表 1)建大表、小表和 JOIN 后表的语句 // 创建大表 create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank int, 阅读全文
posted @ 2021-08-12 16:47 LZ名約山炮 阅读(184) 评论(0) 推荐(0) 编辑

2021年8月11日 #

摘要: 第 1 章 数据可视化接口 1.1 设计思路 之前数据分层处理,最后把轻度聚合的结果保存到ClickHouse中,主要的目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会用两种形式展现,一种是为专业的数据分析人员的BI工具,一种是面向非专业人员的更加直观的数据大屏。 以下主要是面向百度的 阅读全文
posted @ 2021-08-11 19:26 LZ名約山炮 阅读(1563) 评论(0) 推荐(0) 编辑

摘要: 一、Linux&Shell 1.1 Linux常用高级命令 1)top:查看内存 2)df -h:查看磁盘存储情况 3)iotop:查看磁盘IO读写情况(sudo yum install iotop) 4)iotop -o:查看较高的磁盘IO读写程序 5)netstat -nlpt | grep 端 阅读全文
posted @ 2021-08-11 13:09 LZ名約山炮 阅读(931) 评论(0) 推荐(0) 编辑

2021年8月10日 #

摘要: 第 1 章 Prometheus入门 Prometheus受启发于Google的Brogmon监控系统(相似的Kubernetes是从Google的Brog系统演变而来),从2012年开始由前Google工程师在Soundcloud以开源软件的形式进行研发,并且于2015年早期对外发布早期版本。 2 阅读全文
posted @ 2021-08-10 17:13 LZ名約山炮 阅读(743) 评论(0) 推荐(0) 编辑

2021年8月7日 #

摘要: 第1章 DWM层和DWS设计 1.1 设计思路 DWM(Data WareHouse Middle),一般称为数据中间层. 该层会在DWD层的基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。 我们 阅读全文
posted @ 2021-08-07 17:01 LZ名約山炮 阅读(550) 评论(1) 推荐(0) 编辑

2021年8月5日 #

摘要: 问题如下:bin/yarn-session.sh -d 报错 The program finished with the following exception: org.apache.flink.client.deployment.ClusterDeploymentException: Could 阅读全文
posted @ 2021-08-05 14:41 LZ名約山炮 阅读(1800) 评论(0) 推荐(0) 编辑

2021年8月3日 #

摘要: 第1章 Clickhouse简介 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 OLAP场景的关键特征: 1)大多数是读请求 2)数据总是以相当大的批(> 阅读全文
posted @ 2021-08-03 23:23 LZ名約山炮 阅读(460) 评论(0) 推荐(0) 编辑

摘要: 第1章 DWM层和DWS设计 1.1 设计思路 DWM(Data WareHouse Middle),一般成为数据中间层,该层会在DWD层的基础上, 对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。 我们 阅读全文
posted @ 2021-08-03 18:51 LZ名約山炮 阅读(755) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 16 下一页