摘要:
在阅读本文之前,你应该阅读过的系列: 《Flink重点难点:时间、窗口和流Join》 《Flink重点难点:网络流控和反压》 《Flink重点难点:维表关联理论和Join实战》 《Flink重点难点:内存模型与内存结构》 在后台留言阴阳怪气的一些人,我跟你们说下。不管之前的小编对你态度怎么样。 在我 阅读全文
摘要:
在阅读本文之前,你应该阅读过的系列: 《Flink重点难点:时间、窗口和流Join》 《Flink重点难点:网络流控和反压》 《Flink重点难点:维表关联理论和Join实战》 《Flink重点难点:内存模型与内存结构》 《Flink重点难点:Flink Table&SQL必知必会(一)》 我们在上 阅读全文
摘要:
什么是字节码?Java采用字节码的好处是什么? 那我在问问SparkSQL的字节码生成是怎么做的不过分吧? 代码生成技术广泛应用于现代的数据库系统中。代码生成是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行,相比解释执行的方式,运行效率要高很多。尤其是对于计算密集型查询、或频繁重复使 阅读全文
摘要:
微众银行开源项目Linkis正式通过Apache软件基金会(ASF)的投票表决,全票通过进入ASF孵化器! Linkis简介 Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口,上层应用可以方便地连接访问My 阅读全文
摘要:
这篇文章来自一个读者在面试过程中的一个问题,Hadoop在shuffle过程中使用了一个数据结构-环形缓冲区。 环形队列是在实际编程极为有用的数据结构,它是一个首尾相连的FIFO的数据结构,采用数组的线性空间,数据组织简单。能很快知道队列是否满为空。能以很快速度的来存取数据。 因为有简单高效的原因, 阅读全文
摘要:
你需要先看这个系列: Hadoop重点难点:HDFS读写/NN/2NN/DN HDFS – 可靠性 HDFS 的可靠性主要有一下几点: 冗余副本策略 机架策略 心跳机制 安全模式 效验和 回收站 元数据保护 快照机制 1.冗余副本策略 可以在 hdfs-site.xml 中设置复制因子指定副本数量 阅读全文
摘要:
这几天浏览论坛看到一个帖子。如醍醐灌顶,解开了很多之前想不明白的问题。 知识体系到思维体系 我之前写过一个《早点建立自己的知识体系》,现在看来原来我只在第一层,更上一层的应该是思维体系的建立。 首先明白一个问题,你工作到底是在追求什么?前几天在公司的调查问卷上,我写了我工作的目的,获取尊重和认同感, 阅读全文
摘要:
问题是这样的: HDFS上存储了一个大小10G不可分割压缩格式的文件(gzip格式),当有一个mr任务去读取这个文件的时候会产生多少个map task?spark去读取这种不可分割格式的大文件时是怎么处理的呢? 关于这个问题,大家应该都看过这个: Hadoop所支持的几种压缩格式 gzip文件最大的 阅读全文
摘要:
背景 我先说下这篇文章的背景。 放假前的晚上,我们技术小组在和产品头脑风暴的时候,提出了一个终极问题: 中国优秀的软件架构师是不是出现了严重断层? 背景是这样的:我们在做一款面向B端商家的供应链产品,这个产品行业内有非常强力和成熟的软件公司,他们有受众广阔、市场占有率高、客户满意度高、软件架构很优秀 阅读全文
摘要:
《大数据之Hadoop企业级生产调优手册(上)》 5 HDFS—存储优化 5.1 纠删码 5.2 异构存储(冷热数据分离) 6 HDFS—故障排除 6.1 集群安全模式 6.2 慢磁盘监控 6.3 小文件归档 7 MapReduce 生产经验 8 Hadoop 综合调优 8.1 Hadoop 小文件 阅读全文
摘要:
一 .前言 官方发布了Flink1.14版本,但是遗憾的是,中文官网中的案例和资料还都是基于很古老的版本。所以大家照着官网资料跑不通基本代码也是很正常的。 所以整理一下从1.7 版本到1.14版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数。 二 .Flink 1.7 版本 在 Flin 阅读全文