大数据 - 随笔分类(第2页) - 哥们要飞

【Scala复习】基础知识、函数式编程、面向对象、集合、隐式转换、模式匹配、泛型

摘要：重点版详细版基础知识常量和变量尽量使用常量val别使用变量var变量的命名数字字母下划线_特殊的用法数据类型java基本数据类型引用数据类型scalaAny-对象的根类AnyVal-数值类型LongInt...StringOps使用String的时候, 有些情况会通过隐式转换☆的形式到这个类型U 阅读全文

posted @ 2021-12-26 17:51 哥们要飞阅读(35) 评论(0) 推荐(0) 编辑

【离线数仓】Day04-即席查询（Ad Hoc）：Presto链接不同数据源查询、Druid建多维表、Kylin使用cube快速查询

摘要：一、Presto 1、简介概念：大数据量、秒级、分布式SQL查询engine【解析SQL但不是数据库】架构不同worker对应不同的数据源（各数据源有对应的connector连接适配器）优缺点缺点：读数据连查表会产生大量临时数据与impala比较 Impala性能稍领先于Presto，但阅读全文

posted @ 2021-12-06 22:19 哥们要飞阅读(308) 评论(0) 推荐(0) 编辑

【Impala】概念、原理、内外部shell、建库建表、分区、查询、自定义函数、存储压缩

摘要：一、基本概念 1、介绍对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能 2、优缺点优点：基于内存运算，无需写入磁盘，无需转化为MR，支持Data Locality调度（数据和计算在一台机器进行）缺点：完全依赖于hive，只能读取文本文件 3、组成 4、原理二、Impala安装阅读全文

posted @ 2021-12-02 21:43 哥们要飞阅读(666) 评论(0) 推荐(0) 编辑

【sqoop】简介、原理、安装配置测试、导入导出案例、脚本打包、常见命令及参数介绍、常用命令举例

摘要：一、sqoop简介用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)之间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。二、sqoo 阅读全文

posted @ 2021-11-30 22:22 哥们要飞阅读(221) 评论(0) 推荐(0) 编辑

【Phoenix】简介、架构、存储、入门、常用表操作、表的映射方式、配置二级索引

摘要：一、Phoenix简介 1、定义构建在 HBase 之上的开源 SQL 层可以使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据避免使用 HBase 的客户端 API 位置：应用和 HBase 之间 2、特点 SQl 查询编译为 HBase 扫描扫描并行执行 DML 阅读全文

posted @ 2021-11-28 21:38 哥们要飞阅读(371) 评论(0) 推荐(0) 编辑

【Flink】概念、入门、部署（yarn和standalone模式）、架构（组件和运行流程）、批处理、流处理API、window、时间语义、Wartermark、ProcessFunction、状态编程、Table API和SQL、CEP、面试题

摘要：一、Flink简介 1、概述 Apache Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架对无界和有界数据流进行有状态计算 2、重要特点（1）事件驱动型：从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作（对比SparkStreami 阅读全文

posted @ 2021-11-26 22:35 哥们要飞阅读(252) 评论(0) 推荐(0) 编辑

【Spark】Day06-Spark高级课程：性能调优、算子调优、Shuffle调优、JVM调优、数据倾斜、TroubleShooting

摘要：一、Spark性能调优 1、常规性能调优（1）最优资源配置：Executor数量、Executor内存大小、CPU核心数量&Driver内存（2）RDD优化：RDD复用、RDD持久化（序列化、副本机制）、尽早地过滤（3）并行度调节：各个stage的task的数量，应该设置为Spark作业总CP 阅读全文

posted @ 2021-11-25 22:42 哥们要飞阅读(44) 评论(0) 推荐(0) 编辑

【Spark】Day05-内核解析：组件、流程、部署、运行模式、通讯架构、任务调度（Stage、task级）、两种Shuffle机制、内存管理、核心组件

摘要：一、内核概述内核：核心组件的运行机制、任务调度、内存管理、运行原理 1、核心组件（1）Driver驱动器节点：执行main方法，将程序转化为作业job，在executor中调度任务task，跟踪并执行任务运行情况（2）Executor：运行具体任务task，使用块管理器对RDD提供内存式存储阅读全文

posted @ 2021-11-23 22:44 哥们要飞阅读(102) 评论(0) 推荐(0) 编辑

【Spark】Day04-Spark Streaming：与离线批量比较、架构特点、入门案例、创建（队列、数据源）、转换（有状态、无状态）、输出方式、进阶（累加、转换为DF、缓存持久化）、实战（窗口统计）

摘要：一、概述 1、离线和实时计算离线：数据量大，数据不会变化，MapReduce 实时：数据量小，计算过程要短 2、批量和流式处理批量：冷数据，数据量大，速度慢流：在线、实时产生的数据（快速持续到达） 3、Spark Streaming介绍支持大量输入输出数据源的流式处理数据输入后可以使用sp 阅读全文

posted @ 2021-11-22 22:40 哥们要飞阅读(162) 评论(0) 推荐(0) 编辑

【Spark】Day03-Spark SQL：DataFrame、DataSet、sql编程与转换、项目实战（区域热门商品）

摘要：一、概述 1、介绍将Spark SQL转换成RDD，然后提交到集群执行【对比hive】提供2个编程抽象：DataFrame&DataSet 可以使用SQL和DatasetAPI与Spark SQL交互 2、特点易整合SQL和spark 统一的数据访问方式兼容hive，可以直接运行SQL或hq 阅读全文

posted @ 2021-11-20 20:58 哥们要飞阅读(93) 评论(0) 推荐(0) 编辑

【Spark】Day01-入门、模块组成、4种运行模式详解及配置、案例实操（spark分析过程）

摘要：一、概述 1、概念基于内存的大数据分析计算引擎 2、特点快速、通用、可融合性 3、Spark内置模块【腾讯8000台spark集群】 Spark运行在集群管理器(Cluster Manager)上，支持3种集群管理器：Yarn、Standalone（脱机，Spark自带）、Apache Meso 阅读全文

posted @ 2021-11-17 22:11 哥们要飞阅读(151) 评论(0) 推荐(0) 编辑

【Spark】Day02：Spark-Core：RDD概述、RDD编程（转换算子、Action）、序列化、依赖关系、持久化、数据读取保存、累加器、广播变量、top10、转化率

摘要：总结：https://www.cnblogs.com/qingyunzong/p/8899715.html 一、RDD概述 1、引入：IO流按行、按字节、字节缓冲调用read方法读取流，均为惰性加载 2、RDD介绍 RDD：弹性分布数据集只有调用collect才会执行 3、特性分区（是并行计阅读全文

posted @ 2021-11-17 21:20 哥们要飞阅读(86) 评论(0) 推荐(0) 编辑

【Scala】思维导图

摘要：思维导图：http://naotu.baidu.com/file/8ac705df572cd2f131aff5f0ed9c4c88?token=871f7d35671c6287 Scala 算术运算 math.exp(10) 输入输出输入：StdIn.readLine("请输入") 读文件：Sou 阅读全文

posted @ 2021-11-16 22:14 哥们要飞阅读(86) 评论(0) 推荐(0) 编辑

【Scala】上：学习文档、文章、思维导图

摘要：〇、可查阅资料 1、文档英文文档：https://tool.oschina.net/apidocs/apidoc?api=scala-docs-2.9.2 与java：https://docs.scala-lang.org/tutorials/scala-for-java-programmers. 阅读全文

posted @ 2021-11-13 21:30 哥们要飞阅读(36) 评论(0) 推荐(0) 编辑

【HBase】简介、结构、数据模型、快速入门部署、shell操作、架构原理、读写数据流程、数据刷写、压缩、分割、Phoenix、表的映射、与hive集成、优化

摘要：一、简介 1、定义分布式、可扩展、支持海量数据存储的NoSQL数据库 2、数据模型 2.1逻辑结构 2.2物理存储结构 2.3数据模型介绍 Name Space：相当于数据库，包含很多张表 Region：类似于表，定义表时只需要声明列族，不需要声明具体的列。【字段可以动态、按需指定】 Row：每行阅读全文

posted @ 2021-11-11 22:44 哥们要飞阅读(74) 评论(0) 推荐(0) 编辑

【Flume】概述及组成、入门案例、进阶（事务、拓扑结构）、不同拓扑案例、自定义、数据流监控Ganglia

摘要：一、概述 1、定义日志采集、聚合、传输的系统，基于流式结构即：读取本地磁盘数据，写入HDFS或kafka 2、架构 Agent：JVM进程，以事件形式将数据送到目的地。 Agent由三部分组成：Source、Channel、Sink Source：接受各类日志格式的数据，如avro、thrift 阅读全文

posted @ 2021-11-10 22:33 哥们要飞阅读(125) 评论(0) 推荐(0) 编辑

【Hive】概念、安装、数据类型、DDL、DML操作、查询操作、函数、压缩存储、分区分桶、实战Top-N、调优（fetch抓取）、执行计划

摘要：一、概念 1、介绍基于Hadoop的数据仓库工具，将结构化数据映射为一张表，可以通过类SQL方式查询本质：将HQL转换成MapReduce程序 Hive中具有HQL对应的MapReduce模板存在：HDFS，分析的底层是MapReduce，程序运行在yarn上 2、优缺点 HQL快速开发、适用阅读全文

posted @ 2021-11-08 22:42 哥们要飞阅读(72) 评论(0) 推荐(0) 编辑

【Zookeeper】结构、应用、安装部署与参数、客户端命令行操作、API应用、内部原理（选举机制、写数据、监听器）

摘要：一、Zookeeper入门 1、概述分布式服务管理框架（存储和管理数据） Zookeeper=文件系统+通知机制 2、特点主从集群半数以上，正常工作请求顺序执行数据更新具有原子性 3、数据结构树形结构，每个节点被称为一个Znode 一个znode存储1MB数据 4、应用场景统一命名服务阅读全文

posted @ 2021-11-05 22:39 哥们要飞阅读(31) 评论(0) 推荐(0) 编辑

【Hadoop学习】补充：优化、新特性

摘要：一、数据压缩 1、概述原则：IO密集而不是计算密集的job 压缩算法选择 2、压缩位置选择通过参数进行配置 3、压缩实例：数据流的压缩和解压缩 Map输出端采用压缩 Reduce输出端采用压缩二、企业优化 1、概述从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问阅读全文

posted @ 2021-11-04 22:01 哥们要飞阅读(48) 评论(0) 推荐(0) 编辑

【Hadoop学习】下：MapReduce程序编写、Hadoop序列化、框架原理、Yarn组件、设置队列

摘要：一、MapReduce概述 1、定义编程框架，组成分布式运算程序，运行在集群上 2、特点优点：易于编程、扩展性、容错性（内部完成）、海量数据离线处理缺点：非实时、不擅长流式计算、不擅长DAG有向图计算 3、原理编程思想：MapTask-->ReduceTask 三类进程：MrAppMaste 阅读全文

posted @ 2021-11-02 22:08 哥们要飞阅读(81) 评论(0) 推荐(0) 编辑

哥们要飞的blog

Nice to meet you!

随笔分类 - 大数据

公告

搜索

常用链接

积分与排名

随笔分类 (369)

个人展示

阅读排行榜