摘要:
定义: SQL (Structured Query Language) 数据库,指关系型数据库。主要代表:SQL Server,Oracle,MySQL(开源),PostgreSQL(开源)。 NoSQL(Not Only SQL)泛指非关系型数据库。主要代表:MongoDB,Redis,Couch 阅读全文
摘要:
定义: Flume:是Cloudera提供的一个分布式的海量日志采集、聚合和传输的系统; Kafka:是一种高吞吐量的分布式发布订阅消息系统; 各特点: 场景: Flume主要是和HDFS\HBase结合,有特殊优化效率更好; Kafka 是一个通用型系统,开发商 Cloudera 推荐如果数据需要 阅读全文
摘要:
The ChainMapper class allows to use multiple Mapper classes within a single Map task. The ChainReducer class allows to chain multiple Mapper classes a 阅读全文
摘要:
1、UDF:用户定义(普通)函数,只对单行数值产生作用; 继承UDF类,添加方法 evaluate() 2、UDAF:User- Defined Aggregation Funcation;用户定义聚合函数,可对多行数据产生作用;等同与SQL中常用的SUM(),AVG(),也是聚合函数; 聚合函数使 阅读全文
摘要:
1、HIVE基本操作: [一起学Hive]之十一-Hive中Join的类型和用法 注:HIve不支持非等值连接; 什么是等值连接: 2、HIVE JOIN 内部原理: Hive中Join的原理和机制 Hive的三种Join方式 关于SMB: Hive 基础之:分区、桶、Sort Merge Buck 阅读全文
摘要:
MAC Safari上网弹窗弹广告的最新有效解决方法
流氓软件Mackeeper 阅读全文
摘要:
1、内联接(典型的联接运算,使用像 = 或 <> 之类的比较运算符);包括相等联接和自然联接; 内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行; 2、外联接。外联接可以是左向外联接、右向外联接或完整外部联接。 在 FROM子句中指定外联接时,可以由下列几组关键字中的一组指定: 1)LEF 阅读全文
摘要:
一、梗概 即时处理流式数据; Spark Streaming 使用 离散化流(discretized stream) DStream作为抽象表示; DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些 RDD所组成的序列 (因此 得名 阅读全文