上一页 1 2 3 4 5 6 7 ··· 12 下一页
摘要: 围绕spark的其他特性和应用。主要包括以下几个方面 spark自定义分区 spark中的共享变量 spark程序的序列化问题 spark中的application/job/stage/task之间的关系 spark on yarn原理和机制 spark的资源分配方式 1. spark自定义分区 1 阅读全文
posted @ 2019-10-19 19:02 小码农成长记 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 主要围绕spark的底层核心抽象RDD和原理进行理解。主要包括以下几个方面 RDD弹性分布式数据集的依赖关系 RDD弹性分布式数据集的lineage血统机制 RDD弹性分布式数据集的缓存机制 spark任务的DAG有向无环图的构建 spark任务如何划分stage spark任务的提交和调度流程 1 阅读全文
posted @ 2019-10-07 22:37 小码农成长记 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 主要围绕spark的底层核心抽象RDD进行理解。主要包括以下几个方面 RDD弹性分布式数据集的概念 RDD弹性分布式数据集的五大属性 RDD弹性分布式数据集的算子操作分类 RDD弹性分布式数据集的算子操作练习 1. RDD是什么 RDD(Resilient Distributed Dataset)叫 阅读全文
posted @ 2019-10-07 21:34 小码农成长记 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 1. spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processing. spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进,是UC Berkeley AMP 阅读全文
posted @ 2019-10-05 20:06 小码农成长记 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 1. scala简介 scala是运行在 JVM 上的多范式编程语言,同时支持面向对象和面向函数编程 早期scala刚出现的时候,并没有怎么引起重视,随着Spark和Kafka这样基于scala的大数据框架的兴起,scala逐步进入大数据开发者的眼帘。scala的主要优势是它的表达性。 官网地址 h 阅读全文
posted @ 2019-10-04 20:32 小码农成长记 阅读(447) 评论(0) 推荐(0) 编辑
摘要: Hive 主流文件存储格式对比 1、存储文件的压缩比测试 创建表,存储数据格式为TextFile 创建表,存储数据格式为TextFile 向表中加载数据 向表中加载数据 查看表的数据量大小 查看表的数据量大小 创建表,存储数据格式为 parquet 创建表,存储数据格式为 parquet 向表中加载 阅读全文
posted @ 2019-10-03 08:58 小码农成长记 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 1. 数据仓库基本介绍 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数 阅读全文
posted @ 2019-10-03 08:58 小码农成长记 阅读(4477) 评论(1) 推荐(1) 编辑
摘要: 1. hive表的数据压缩 1.1 数据的压缩说明 压缩模式评价 可使用以下三种标准对压缩方式进行评价 1、压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2、压缩时间:越快越好 3、已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化 压 阅读全文
posted @ 2019-10-03 08:57 小码农成长记 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 1. 基本查询 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 SQL 阅读全文
posted @ 2019-10-03 08:08 小码农成长记 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 1. Hive的分区表 1.1 hive的分区表的概念 1.2 hive分区表的构建 创建一个分区字段的分区表 创建一个分区字段的分区表 创建二级分区表 创建二级分区表 2、Hive修改表结构 2.1 修改表的名称 2.2 表的结构信息 2.3 增加/修改/替换列信息 增加列 增加列 修改列 修改列 阅读全文
posted @ 2019-10-03 08:04 小码农成长记 阅读(272) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 12 下一页