随笔档案「2018年5月」 - 牧梦者

Spark SQL基本概念与基本用法

摘要：1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 1.2 为阅读全文

posted @ 2018-05-12 03:04 牧梦者阅读(27348) 评论(0) 推荐(1)

Spark RDD基本概念与基本用法

摘要：1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错，位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集阅读全文

posted @ 2018-05-08 01:59 牧梦者阅读(1526) 评论(2) 推荐(0)

Storm基本原理概念及基本使用

摘要：1. 背景介绍 1.1 离线计算是什么离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示；代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据 1.2 流式计算是什么流式计算：数据实时产生、数据实时传输、数据实时计算、实时阅读全文

posted @ 2018-05-06 17:42 牧梦者阅读(576) 评论(0) 推荐(0)

Hive基本命令解析

摘要：1. Hive的分区作用命令：创建分区往分区中插入数据：load data local inpath '/home/hadoop/sz.dat' into table t_sz_part partition(country = 'China')；说明：首先，创建分区表的时候，需要通过关键字pa 阅读全文

posted @ 2018-05-01 14:57 牧梦者阅读(1215) 评论(0) 推荐(0)

牧梦者

05 2018 档案

公告