摘要:
1基本概念 维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两个基本要素构成。 1.1维度 维度是度量的环境,用来反映业务的一类属性 , 这类属性的集合构成一个维度 , 也可以称为实体对象。 维度属于一个数据域,如地理维度(其中包括国家、地区、 省 阅读全文
摘要:
转载:https://blog.csdn.net/lulongzhou_llz/article/details/78283851 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现 阅读全文
摘要:
作者:王燚光 链接:https://www.zhihu.com/question/33270495/answer/93424104 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 阅读全文
摘要:
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上,每个Spark应用程序都包含一个驱动程序,该程序运行用户的主要功能并在集群上执行各种并行操作。 Sp 阅读全文
摘要:
bin (binaries)存放二进制可执行文件 sbin (superuser binaries)存放二进制可执行文件,只有root才能访问 etc (etcetera)存放系统配置文件 usr (unix sharedresources)用于存放共享的系统资源 home 存放用户文件的根目录 r 阅读全文
摘要:
关于线程和线程池,我们必须知道以下几个概念: 第一,线程中的基本概念, 第二,线程的生命周期 第三,单线程和多线程 第四,什么是多线程的安全问题?为什么会造成多线程的安全问题呢? 第五,线程池的原理解析 第六,常见的几种线程池的特点以及各自的应用场景 一、线程,程序执行流的最小执行单位,是进程中的实 阅读全文
摘要:
转载:https://blog.csdn.net/caisini_vc/article/details/48007297 Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用 阅读全文
摘要:
转载:https://blog.csdn.net/matrix_google/article/details/79888144 首先要考虑这么几个问题: 消息丢失是什么造成的,从生产端和消费端两个角度来考虑 消息重复是什么造成的,从生产端和消费端两个角度来考虑 如何保证消息有序 如果保证消息不重不漏 阅读全文
摘要:
java基础 下载JDK JDK(Java Development Kit Java开发工具包) 官方网址: www.oracle.com 参阅oracle.html 安装JDK 傻瓜式安装,下一步即可。 建议:安装路径不要有中文或者特殊符号如空格等。 JRE可以选择不安装。 具体步骤: (1)双击 阅读全文