12 2021 档案
摘要:如果要在docker中安装软件,除了直接找对应的软件镜像,一般我们会先安装Linux系统,然后再在里面安装各种需要的软件。 比如我想安装乌班图,直接下载官方的版本: 这个目前是Ubuntu20.04,只有72M,因为它只有操作系统的基本功能,大部分软件都没有。接下来我们对它进行调教。 更换apt源
阅读全文
摘要:最近在docker中搭建一个服务,需要有多个容器通信。这里简单记录一下如何在容器间进行通信,同时说一下已经存在的容器如何追加端口映射。 增加网桥 容器间通信的目的是不适用IP而是使用容器名称进行网络通信,因为容器重启IP可能会变。 首先在wsl中增加自己的网桥: docker network cre
阅读全文
摘要:大数据场景下,联表远比微小型关系型数据库中使用的频繁。网上有句话: 传统数据库单机模式做Join的场景毕竟有限,也建议尽量减少使用Join。 然而大数据领域就完全不同,Join是标配,OLAP业务根本无法离开表与表之间的关联,对Join的支持成熟度一定程度上决定了系统的性能,夸张点说,'得Join者
阅读全文
摘要:通过DF,Spark可以跟大量各型的数据源(文件/数据库/大数据)进行交互。前面我们已经看到DF可以生成视图,这就是一个非常使用的功能。 简单的读写流程如下: 通过read方法拿到DataFrameReader对象,与之类似的就有DataFrameWriter对象,通过DF的write方法拿到,通过
阅读全文
摘要:学习一门开源技术一般有两种入门方法,一种是去看官网文档,比如Getting Started - Spark 3.2.0 Documentation (apache.org),另一种是去看官网的例子,也就是%SPARK_HOME%\examples下面的代码。打开IDEA,选择File-Open...
阅读全文
摘要:SparkSession 从Spark2开始,Spark-SQL引入了SparkSession这个核心类,它是处理DataSet等结构数据的入口。在2.0之前,使用的是spark-core里的SparkContext。从前面的例子里也可以看到,程序一上来就要先创建SparkSession对象: Sp
阅读全文
摘要:spark-sql是用来处理结构化数据的模块,是入门spark的首要模块。 技术的学习无非就是去了解它的API,但是Spark有点难,因为它的例子和网上能搜到的基本都是Scala写的。我们这里使用Java。 入门例子 数据处理的第一个例子通常都是word count,就是统计一个文件里每个单词出现了
阅读全文
摘要:Spark 是离线数据处理的一种大数据技术,和Flick相比数据处理要延后,因为Flick是实时数据处理,而Spark需要先读取数据到内存。 Spark的库是基于Scala写的,虽然Scala也是运行在jvm上的,但是Spark提供的Java api的能力和原生api并不完全相同,据说执行效率也有微
阅读全文