随笔分类 - 大数据
摘要:重点版 详细版 基础知识常量和变量尽量使用常量val别使用变量var变量的命名数字字母下划线_特殊的用法数据类型java基本数据类型引用数据类型scalaAny-对象的根类AnyVal-数值类型LongInt...StringOps使用String的时候, 有些情况会通过隐式转换☆的形式到这个类型U
阅读全文
摘要:一、Presto 1、简介 概念:大数据量、秒级、分布式SQL查询engine【解析SQL但不是数据库】 架构 不同worker对应不同的数据源(各数据源有对应的connector连接适配器) 优缺点 缺点:读数据连查表会产生大量临时数据 与impala比较 Impala性能稍领先于Presto,但
阅读全文
摘要:一、基本概念 1、介绍 对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能 2、优缺点 优点:基于内存运算,无需写入磁盘,无需转化为MR,支持Data Locality调度(数据和计算在一台机器进行) 缺点:完全依赖于hive,只能读取文本文件 3、组成 4、原理 二、Impala安装
阅读全文
摘要:一、sqoop简介 用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)之间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 二、sqoo
阅读全文
摘要:一、Phoenix简介 1、定义 构建在 HBase 之上的开源 SQL 层 可以使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据 避免使用 HBase 的客户端 API 位置:应用和 HBase 之间 2、特点 SQl 查询编译为 HBase 扫描 扫描并行执行 DML
阅读全文
摘要:一、Flink简介 1、概述 Apache Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架 对无界和有界数据流进行有状态计算 2、重要特点 (1)事件驱动型:从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作(对比SparkStreami
阅读全文
摘要:一、Spark性能调优 1、常规性能调优 (1)最优资源配置:Executor数量、Executor内存大小、CPU核心数量&Driver内存 (2)RDD优化:RDD复用、RDD持久化(序列化、副本机制)、尽早地过滤 (3)并行度调节:各个stage的task的数量,应该设置为Spark作业总CP
阅读全文
摘要:一、内核概述 内核:核心组件的运行机制、任务调度、内存管理、运行原理 1、核心组件 (1)Driver驱动器节点:执行main方法,将程序转化为作业job,在executor中调度任务task,跟踪并执行任务运行情况 (2)Executor:运行具体任务task,使用块管理器对RDD提供内存式存储
阅读全文
摘要:一、概述 1、离线和实时计算 离线:数据量大,数据不会变化,MapReduce 实时:数据量小,计算过程要短 2、批量和流式处理 批量:冷数据,数据量大,速度慢 流:在线、实时产生的数据(快速持续到达) 3、Spark Streaming介绍 支持大量输入输出数据源的流式处理 数据输入后可以使用sp
阅读全文
摘要:一、概述 1、介绍 将Spark SQL转换成RDD,然后提交到集群执行【对比hive】 提供2个编程抽象:DataFrame&DataSet 可以使用SQL和DatasetAPI与Spark SQL交互 2、特点 易整合SQL和spark 统一的数据访问方式 兼容hive,可以直接运行SQL或hq
阅读全文
摘要:一、概述 1、概念 基于内存的大数据分析计算引擎 2、特点 快速、通用、可融合性 3、Spark内置模块【腾讯8000台spark集群】 Spark运行在集群管理器(Cluster Manager)上,支持3种集群管理器:Yarn、Standalone(脱机,Spark自带)、Apache Meso
阅读全文
摘要:总结:https://www.cnblogs.com/qingyunzong/p/8899715.html 一、RDD概述 1、引入:IO流 按行、按字节、字节缓冲 调用read方法读取流,均为惰性加载 2、RDD介绍 RDD:弹性分布数据集 只有调用collect才会执行 3、特性 分区(是并行计
阅读全文
摘要:思维导图:http://naotu.baidu.com/file/8ac705df572cd2f131aff5f0ed9c4c88?token=871f7d35671c6287 Scala 算术运算 math.exp(10) 输入输出 输入:StdIn.readLine("请输入") 读文件:Sou
阅读全文
摘要:〇、可查阅资料 1、文档 英文文档:https://tool.oschina.net/apidocs/apidoc?api=scala-docs-2.9.2 与java:https://docs.scala-lang.org/tutorials/scala-for-java-programmers.
阅读全文
摘要:一、简介 1、定义 分布式、可扩展、支持海量数据存储的NoSQL数据库 2、数据模型 2.1逻辑结构 2.2物理存储结构 2.3数据模型介绍 Name Space:相当于数据库,包含很多张表 Region:类似于表,定义表时只需要声明列族,不需要声明具体的列。【字段可以动态、按需指定】 Row:每行
阅读全文
摘要:一、概述 1、定义 日志采集、聚合、传输的系统,基于流式结构 即:读取本地磁盘数据,写入HDFS或kafka 2、架构 Agent:JVM进程,以事件形式将数据送到目的地。 Agent由三部分组成:Source、Channel、Sink Source:接受各类日志格式的数据,如avro、thrift
阅读全文
摘要:一、概念 1、介绍 基于Hadoop的数据仓库工具,将结构化数据映射为一张表,可以通过类SQL方式查询 本质:将HQL转换成MapReduce程序 Hive中具有HQL对应的MapReduce模板 存在:HDFS,分析的底层是MapReduce,程序运行在yarn上 2、优缺点 HQL快速开发、适用
阅读全文
摘要:一、Zookeeper入门 1、概述 分布式服务管理框架(存储和管理数据) Zookeeper=文件系统+通知机制 2、特点 主从集群 半数以上,正常工作 请求顺序执行 数据更新具有原子性 3、数据结构 树形结构,每个节点被称为一个Znode 一个znode存储1MB数据 4、应用场景 统一命名服务
阅读全文
摘要:一、数据压缩 1、概述 原则:IO密集而不是计算密集的job 压缩算法选择 2、压缩位置选择 通过参数进行配置 3、压缩实例: 数据流的压缩和解压缩 Map输出端采用压缩 Reduce输出端采用压缩 二、企业优化 1、概述 从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问
阅读全文
摘要:一、MapReduce概述 1、定义 编程框架,组成分布式运算程序,运行在集群上 2、特点 优点:易于编程、扩展性、容错性(内部完成)、海量数据离线处理 缺点:非实时、不擅长流式计算、不擅长DAG有向图计算 3、原理 编程思想:MapTask-->ReduceTask 三类进程:MrAppMaste
阅读全文