摘要: 定义: SQL (Structured Query Language) 数据库,指关系型数据库。主要代表:SQL Server,Oracle,MySQL(开源),PostgreSQL(开源)。 NoSQL(Not Only SQL)泛指非关系型数据库。主要代表:MongoDB,Redis,Couch 阅读全文
posted @ 2017-07-07 23:57 mzzcy 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 定义: Flume:是Cloudera提供的一个分布式的海量日志采集、聚合和传输的系统; Kafka:是一种高吞吐量的分布式发布订阅消息系统; 各特点: 场景: Flume主要是和HDFS\HBase结合,有特殊优化效率更好; Kafka 是一个通用型系统,开发商 Cloudera 推荐如果数据需要 阅读全文
posted @ 2017-07-06 09:41 mzzcy 阅读(2612) 评论(0) 推荐(0) 编辑
摘要: The ChainMapper class allows to use multiple Mapper classes within a single Map task. The ChainReducer class allows to chain multiple Mapper classes a 阅读全文
posted @ 2017-07-06 01:14 mzzcy 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 1、UDF:用户定义(普通)函数,只对单行数值产生作用; 继承UDF类,添加方法 evaluate() 2、UDAF:User- Defined Aggregation Funcation;用户定义聚合函数,可对多行数据产生作用;等同与SQL中常用的SUM(),AVG(),也是聚合函数; 聚合函数使 阅读全文
posted @ 2017-07-05 08:48 mzzcy 阅读(13785) 评论(0) 推荐(0) 编辑
摘要: 1、HIVE基本操作: [一起学Hive]之十一-Hive中Join的类型和用法 注:HIve不支持非等值连接; 什么是等值连接: 2、HIVE JOIN 内部原理: Hive中Join的原理和机制 Hive的三种Join方式 关于SMB: Hive 基础之:分区、桶、Sort Merge Buck 阅读全文
posted @ 2017-07-04 01:40 mzzcy 阅读(410) 评论(0) 推荐(0) 编辑
摘要: MAC Safari上网弹窗弹广告的最新有效解决方法 流氓软件Mackeeper 阅读全文
posted @ 2017-07-03 14:10 mzzcy 阅读(2522) 评论(0) 推荐(0) 编辑
摘要: 1、内联接(典型的联接运算,使用像 = 或 <> 之类的比较运算符);包括相等联接和自然联接; 内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行; 2、外联接。外联接可以是左向外联接、右向外联接或完整外部联接。 在 FROM子句中指定外联接时,可以由下列几组关键字中的一组指定: 1)LEF 阅读全文
posted @ 2017-07-03 09:49 mzzcy 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 一、梗概 即时处理流式数据; Spark Streaming 使用 离散化流(discretized stream) DStream作为抽象表示; DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些 RDD所组成的序列 (因此 得名 阅读全文
posted @ 2017-07-03 01:54 mzzcy 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 和Hive SQL演变而来,有很多相似之处; 挖坑待做; Spark入门之五:SparkSQL的原理以及架构 阅读全文
posted @ 2017-07-02 23:41 mzzcy 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 梗概: RDD 其实就是分布式的元素集合。 在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD 以及 调用RDD 操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区 阅读全文
posted @ 2017-07-02 20:36 mzzcy 阅读(235) 评论(0) 推荐(0) 编辑