随笔档案「2021年12月」 - 大卫小东（Sheldon）

为dokcer中最简版ubuntu（70M）增加apt安装能力

摘要：如果要在docker中安装软件，除了直接找对应的软件镜像，一般我们会先安装Linux系统，然后再在里面安装各种需要的软件。比如我想安装乌班图，直接下载官方的版本：这个目前是Ubuntu20.04，只有72M，因为它只有操作系统的基本功能，大部分软件都没有。接下来我们对它进行调教。更换apt源阅读全文

posted @ 2021-12-24 14:41 大卫小东（Sheldon）阅读(475) 评论(1) 推荐(1)

WSL docker打通容器间通信和追加端口映射

摘要：最近在docker中搭建一个服务，需要有多个容器通信。这里简单记录一下如何在容器间进行通信，同时说一下已经存在的容器如何追加端口映射。增加网桥容器间通信的目的是不适用IP而是使用容器名称进行网络通信，因为容器重启IP可能会变。首先在wsl中增加自己的网桥： docker network cre 阅读全文

posted @ 2021-12-23 11:26 大卫小东（Sheldon）阅读(1540) 评论(0) 推荐(0)

Spark3学习【基于Java】5. Spark-Sql联表查询JOIN

摘要：大数据场景下，联表远比微小型关系型数据库中使用的频繁。网上有句话：传统数据库单机模式做Join的场景毕竟有限，也建议尽量减少使用Join。然而大数据领域就完全不同，Join是标配，OLAP业务根本无法离开表与表之间的关联，对Join的支持成熟度一定程度上决定了系统的性能，夸张点说，'得Join者阅读全文

posted @ 2021-12-13 11:27 大卫小东（Sheldon）阅读(1497) 评论(0) 推荐(0)

Spark3 学习【基于Java】4. Spark-Sql数据源

摘要：通过DF，Spark可以跟大量各型的数据源（文件/数据库/大数据）进行交互。前面我们已经看到DF可以生成视图，这就是一个非常使用的功能。简单的读写流程如下：通过read方法拿到DataFrameReader对象，与之类似的就有DataFrameWriter对象，通过DF的write方法拿到，通过阅读全文

posted @ 2021-12-13 11:21 大卫小东（Sheldon）阅读(576) 评论(0) 推荐(0)

Spark3学习【基于Java】3. Spark-Sql常用API

摘要：学习一门开源技术一般有两种入门方法，一种是去看官网文档，比如Getting Started - Spark 3.2.0 Documentation (apache.org)，另一种是去看官网的例子，也就是%SPARK_HOME%\examples下面的代码。打开IDEA，选择File-Open... 阅读全文

posted @ 2021-12-03 19:02 大卫小东（Sheldon）阅读(872) 评论(0) 推荐(0)

Spark3学习【基于Java】2. Spark-Sql核心概念

摘要：SparkSession 从Spark2开始，Spark-SQL引入了SparkSession这个核心类，它是处理DataSet等结构数据的入口。在2.0之前，使用的是spark-core里的SparkContext。从前面的例子里也可以看到，程序一上来就要先创建SparkSession对象： Sp 阅读全文

posted @ 2021-12-03 12:29 大卫小东（Sheldon）阅读(368) 评论(0) 推荐(0)

Spark3学习【基于Java】1. Spark-Sql入门程序

摘要：spark-sql是用来处理结构化数据的模块，是入门spark的首要模块。技术的学习无非就是去了解它的API，但是Spark有点难，因为它的例子和网上能搜到的基本都是Scala写的。我们这里使用Java。入门例子数据处理的第一个例子通常都是word count，就是统计一个文件里每个单词出现了阅读全文

posted @ 2021-12-03 11:29 大卫小东（Sheldon）阅读(885) 评论(0) 推荐(0)

Spark3学习入门【基于Java】

摘要：Spark 是离线数据处理的一种大数据技术，和Flick相比数据处理要延后，因为Flick是实时数据处理，而Spark需要先读取数据到内存。 Spark的库是基于Scala写的，虽然Scala也是运行在jvm上的，但是Spark提供的Java api的能力和原生api并不完全相同，据说执行效率也有微阅读全文

posted @ 2021-12-03 11:08 大卫小东（Sheldon）阅读(3461) 评论(0) 推荐(0)

12 2021 档案

公告