摘要:
几年前,包括最近,我看了各种书籍、教程、官网。但是真正能够把RDD、DataFrame、DataSet解释得清楚一点的、论据多一点少之又少,甚至有的人号称Spark专家,但在这一块根本说不清楚。还有国内的一些书籍,小猴真的想问一声:Are you OK?书名别再叫精通xxx技术了,请改名为 xxx技 阅读全文
摘要:
操作系统要求 在安装CDH之前,我们来看看平台对系统有什么样的要求。通过官方文档,我们可以看到有5个方面的要求: 软件依赖 CDH和CM支持的依赖 文件系统要求 nproc配置 Kudu所要求的nscd 软件依赖 Python 操作系统带的Python是支持的(Hue和Spark会有一点问题),但P 阅读全文
摘要:
为了方便用CentOS学习集群环境操作,本次我们基于vmware来快速搭建3台虚拟机规模的集群环境。 准备工作 下载vmware 大家可以下载vmware 15,自己找个激活码自己激活下。 下载centos 下载地址:http://mirrors.aliyun.com/centos/7.9.2009 阅读全文
摘要:
Hadoop Beginner's Guide.pdf item description 封面 初版时间 2014-01-01 出版社 人民邮电出版社 作者 Garry Turkington 页数 310 Hadoop技术内幕:深入解析MapReduce架构设计与实现原理.pdf item desc 阅读全文
摘要:
本篇要解决的问题: Flink是使用Java的序列化方式吗? Java序列化方式有什么问题? Java中是用Class描述类型,Flink也是用Class描述吗? 请解释以下Java类型擦除。 Flink中为什么使用Lambda表达式实现flatMap需要通过returns指定类型呢? new Ar 阅读全文
摘要:
Flink官方文档 每一个学习Flink的同学,都应该熟悉官网提供的文档资源。Flink官网上拥有最全、最权威的学习资源,Flink对中国用户很友好,大部分资源都已经做了汉化。 https://ci.apache.org/projects/flink/flink-docs-release-1.12/ 阅读全文
摘要:
打包是一项神圣、而庄严的工作。package意味着我们离生产已经非常近了。它会把我们之前的大量工作浓缩成为一个、或者多个文件。接下来,运维的同学就可以拿着这些个打包文件在生产上纵横四海了。 这么一项庄严、神圣的工作,却没有受到多数人的关注,大家习惯去网上随意copy一段pom的xml代码,往自己项目 阅读全文
摘要:
Hadoop 3.0 EC技术 EC的设计目标 Hadoop默认的3副本方案需要额外的200%的存储空间、和网络IO开销 而一些较低I/O的warn和cold数据,副本数据的访问是比较少的(hot数据副本会被用于计算) EC可以提供同级别的容错能力,存储空间要少得多(官方宣传不到50%),使用了EC 阅读全文
摘要:
找到C:\Users\用户名\AppData\Roaming\Typora\themes\路径下的base.user.css,用文本编辑器打开(若不存在,则自己创建一个),将一下内容复制进去,然后重启Typora即可。以下是我的Typora自动编号配置:/* 正文标题区: #write *//* [TOC]目录树区: .md-toc-content *//* 侧边栏的目录大纲区: .sidebar... 阅读全文
摘要:
我们先来以滚动时间窗口为例,来看一下窗口的几个时间参数与Flink流处理系统时间特性的关系。获取窗口开始时间Flink源代码获取窗口的开始时间为以下代码:org.apache.flink.streaming.api.windowing.windows.TimeWindow/** * Method to get the window start for a timestamp. * * @param... 阅读全文