斜杠代码日记

2021年2月21日

摘要：几年前，包括最近，我看了各种书籍、教程、官网。但是真正能够把RDD、DataFrame、DataSet解释得清楚一点的、论据多一点少之又少，甚至有的人号称Spark专家，但在这一块根本说不清楚。还有国内的一些书籍，小猴真的想问一声：Are you OK？书名别再叫精通xxx技术了，请改名为 xxx技阅读全文

posted @ 2021-02-21 16:09 斜杠代码日记阅读(8422) 评论(2) 推荐(1)

2021年2月19日

安装CM 6.3.1和CDH 6.3.2

摘要：操作系统要求在安装CDH之前，我们来看看平台对系统有什么样的要求。通过官方文档，我们可以看到有5个方面的要求：软件依赖 CDH和CM支持的依赖文件系统要求 nproc配置 Kudu所要求的nscd 软件依赖 Python 操作系统带的Python是支持的（Hue和Spark会有一点问题），但P 阅读全文

posted @ 2021-02-19 09:20 斜杠代码日记阅读(969) 评论(0) 推荐(0)

2021年2月18日

基于vmware安装CentOS 7.9以及集群环境配置

摘要：为了方便用CentOS学习集群环境操作，本次我们基于vmware来快速搭建3台虚拟机规模的集群环境。准备工作下载vmware 大家可以下载vmware 15，自己找个激活码自己激活下。下载centos 下载地址：http://mirrors.aliyun.com/centos/7.9.2009 阅读全文

posted @ 2021-02-18 00:43 斜杠代码日记阅读(326) 评论(0) 推荐(0)

2021年2月17日

分享一些Hadoop的学习资源

摘要： Hadoop Beginner's Guide.pdf item description 封面初版时间 2014-01-01 出版社人民邮电出版社作者 Garry Turkington 页数 310 Hadoop技术内幕：深入解析MapReduce架构设计与实现原理.pdf item desc 阅读全文

posted @ 2021-02-17 16:10 斜杠代码日记阅读(190) 评论(0) 推荐(0)

5分钟快速掌握Flink类型与序列化

摘要：本篇要解决的问题： Flink是使用Java的序列化方式吗？ Java序列化方式有什么问题？ Java中是用Class描述类型，Flink也是用Class描述吗？请解释以下Java类型擦除。 Flink中为什么使用Lambda表达式实现flatMap需要通过returns指定类型呢？ new Ar 阅读全文

posted @ 2021-02-17 02:30 斜杠代码日记阅读(1021) 评论(0) 推荐(0)

想要自学Flink，看这些资源就足够了

摘要： Flink官方文档每一个学习Flink的同学，都应该熟悉官网提供的文档资源。Flink官网上拥有最全、最权威的学习资源，Flink对中国用户很友好，大部分资源都已经做了汉化。 https://ci.apache.org/projects/flink/flink-docs-release-1.12/ 阅读全文

posted @ 2021-02-17 02:17 斜杠代码日记阅读(840) 评论(0) 推荐(0)

2021年2月16日

恕我直言！！！对于Maven，菜鸟玩dependency，神仙玩plugin

摘要：打包是一项神圣、而庄严的工作。package意味着我们离生产已经非常近了。它会把我们之前的大量工作浓缩成为一个、或者多个文件。接下来，运维的同学就可以拿着这些个打包文件在生产上纵横四海了。这么一项庄严、神圣的工作，却没有受到多数人的关注，大家习惯去网上随意copy一段pom的xml代码，往自己项目阅读全文

posted @ 2021-02-16 17:35 斜杠代码日记阅读(3105) 评论(3) 推荐(8)

Hadoop 3.0 EC技术

摘要： Hadoop 3.0 EC技术 EC的设计目标 Hadoop默认的3副本方案需要额外的200%的存储空间、和网络IO开销而一些较低I/O的warn和cold数据，副本数据的访问是比较少的（hot数据副本会被用于计算） EC可以提供同级别的容错能力，存储空间要少得多（官方宣传不到50%），使用了EC 阅读全文

posted @ 2021-02-16 17:21 斜杠代码日记阅读(4590) 评论(0) 推荐(0)

2020年2月11日

Typora自动编号设置

摘要：找到C:\Users\用户名\AppData\Roaming\Typora\themes\路径下的base.user.css，用文本编辑器打开（若不存在，则自己创建一个），将一下内容复制进去，然后重启Typora即可。以下是我的Typora自动编号配置:/* 正文标题区: #write *//* [TOC]目录树区: .md-toc-content *//* 侧边栏的目录大纲区: .sidebar... 阅读全文

posted @ 2020-02-11 13:05 斜杠代码日记阅读(2333) 评论(0) 推荐(0)

2020年2月6日

「Flink」事件时间与水印

摘要：我们先来以滚动时间窗口为例，来看一下窗口的几个时间参数与Flink流处理系统时间特性的关系。获取窗口开始时间Flink源代码获取窗口的开始时间为以下代码：org.apache.flink.streaming.api.windowing.windows.TimeWindow/** * Method to get the window start for a timestamp. * * @param... 阅读全文

posted @ 2020-02-06 23:03 斜杠代码日记阅读(993) 评论(0) 推荐(0)

斜杠代码日记

是的！我就是那只笨鸟！

公告