01 2022 档案
摘要:基本介绍: 起源: 将函数式编程语言的特点融合到Java中,由此发明了Scala。更简洁、更灵活。 语言特点: Scala是一门以 JVM 为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言。Scala源代码会被编译成Java字节码,然后运行于JVM之上,并可以调用现有的Jav
阅读全文
摘要:基本介绍: 概述: 直接使用MapReduce处理大数据,将面临以下问题: - MapReduce 开发难度大,学习成本高(wordCount => Hello World)- Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理- 使用MapReduce框架开发,项目周期长,成本高Hiv
阅读全文
摘要:基本介绍: 概念: 一个快速开源的OLAP数据库管理系统,它是面向列的,允许使用SQL查询实时生成分析报告。 背景知识: 历史olap: 定时(通常是T+1 或者 T+H)将 HBase 数据写成静态的文件(如:Parquet)导入到 OLAP 引擎(如:HDFS,比较常见的是Impala操作Hiv
阅读全文
摘要:概述: Maven 是一个项目管理工具,主要用于项目构建,依赖管理,项目信息管理。Maven 是一个项目管理工具,它包含了一个项目对象模型,一组标准集合,一个项目生命周期,一个依赖管理系统,和用来运行定义在生命周期阶段中插件目标的工具。Maven 翻译为"专家"、"内行",是 Apache 下的一个
阅读全文
摘要:基本介绍: 编排历史: 服务编排系统 =》容器编排系统docker compose\swarm\docker machinemesos,marathonkubernets 集群节点: 聚合了所有node的cpu和内存,能自动寻找适合的node 运行单元: pods master组成: APIserv
阅读全文
摘要:基本介绍: 介绍: Spark的技术理念是基于批来模拟流的计算。而Flink则完全相反,它采用的是基于流计算来模拟批计算。Flink提供高吞吐量、低延迟的流数据引擎以及对事件-时间处理和状态管理的支持。Spark 虽然支持各种场见场景,但并不是每一种都同样好用。数据流的实时处理就是其中相对较弱的一环
阅读全文