05 2018 档案

摘要:1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 1.2 为 阅读全文
posted @ 2018-05-12 03:04 牧梦者 阅读(26877) 评论(0) 推荐(1) 编辑
摘要:1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集 阅读全文
posted @ 2018-05-08 01:59 牧梦者 阅读(1473) 评论(2) 推荐(0) 编辑
摘要:1. 背景介绍 1.1 离线计算是什么 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示; 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据 1.2 流式计算是什么 流式计算:数据实时产生、数据实时传输、数据实时计算、实时 阅读全文
posted @ 2018-05-06 17:42 牧梦者 阅读(537) 评论(0) 推荐(0) 编辑
摘要:1. Hive的分区作用 命令:创建分区 往分区中插入数据:load data local inpath '/home/hadoop/sz.dat' into table t_sz_part partition(country = 'China'); 说明:首先,创建分区表的时候,需要通过关键字pa 阅读全文
posted @ 2018-05-01 14:57 牧梦者 阅读(1194) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示