随笔- 123 文章- 0 评论- 17 阅读- 16万

07 2020 档案

摘要：一、简介 Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。 1，事件驱动型(Event-driven) 事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到阅读全文

posted @ 2020-07-31 15:34 MXC肖某某阅读(413) 评论(0) 推荐(0) 编辑

SparkStreaming

摘要：一、简介 spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结阅读全文

posted @ 2020-07-24 16:35 MXC肖某某阅读(198) 评论(0) 推荐(0) 编辑

SparkSQL

摘要：一、RDD、DataFrame和DataSet 1，共性 1、RDD、DataFrame和DateSet全都是spark平台下的弹性分布式数据集 2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历 3、三者都有partit 阅读全文

posted @ 2020-07-23 09:05 MXC肖某某阅读(198) 评论(0) 推荐(0) 编辑

Spark入门

摘要：一、简介 Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。 Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复与内存系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distribute DataSet，RDD)的AP 阅读全文

posted @ 2020-07-21 14:45 MXC肖某某阅读(178) 评论(0) 推荐(0) 编辑

SparkCore

摘要：一、概述 1，定义 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。 2，RDD的特点 RDD表示制度的分区的数据集，对RDD进行改动，只能通过RDD的阅读全文

posted @ 2020-07-21 14:17 MXC肖某某阅读(196) 评论(0) 推荐(0) 编辑

Scala数据结构(二)

摘要：一、集合的基础操作 1，head头信息 //获取集合的第一个元素 val list = List(1,3,5) list.head //1 2，tail尾信息 //获取集合除去头元素之外的所有元素 val list = List(1,3,5) list.tail //List(3,5) 3，last 阅读全文

posted @ 2020-07-06 10:26 MXC肖某某阅读(211) 评论(0) 推荐(0) 编辑

scala数据结构(一)

摘要：一、概述 1，特点 1)Scala同时支持不可变集合和可变集合 2)两个主要的包：不可变集合：scala.collection.immutable 可变集合： scala.collection.mutable 3)Scala默认采用不可变集合，对于几乎所有的集合类，Scala都同时提供了可变(mu 阅读全文

posted @ 2020-07-02 20:37 MXC肖某某阅读(417) 评论(0) 推荐(0) 编辑

Scala的面向对象编程

摘要：一、类与对象 1，定义 [修饰符] class 类名 { 类体 } 1) scala语法中，类并不声明为public，所有这些类都具有公有可见性(即默认就是public),[修饰符在后面再详解]. 2) 一个Scala源文件可以包含多个类, 每个类默认都是public 2，属性 1)属性的定义语法同阅读全文

posted @ 2020-07-01 21:04 MXC肖某某阅读(380) 评论(0) 推荐(0) 编辑

公告

昵称： MXC肖某某
园龄： 6年9个月
粉丝： 34
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

MXC

07 2020 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论