摘要:
Spark on Hive • Hive只是作为了存储的角色 • SparkSQL作为计算的角色 – Hive on Spark • Hive承担了一部分计算(解析SQL,优化SQL...)的和存储 • Spark作为了执行引擎的角色 Predicate n. 谓语,述语 adj. 谓语的,述语的 v. 使……基于;断言;暗示 谓词下推 (条件往下压了,) transient 英 [ˈtrænzi 阅读全文
摘要:
straggling 美 ['strægl] v. 杂乱地蔓延;落伍(straggle 的现在分词) adj. 凌乱的 推测执行机制:默认是关闭的(spark任务慢,启动新线程从头执行);对于ELT数据入库,不能开启此机制,避免数据重复。 v. 杂乱地蔓延;落伍(straggle 的现在分词) ad 阅读全文
摘要:
https://www.scala-lang.org/ http://spark.apache.org/docs/1.6.3/ java、scala 基于jvm concise adj. 简明的,简洁的 The Scala Programming Language Scala combines object-oriented and functional programming in... 阅读全文
摘要:
Redis 是内存数据库,是nosql数据库。 基于key value存储的数据,key只能是string类型, v 可以使多种类型。 关系型数据库的索引机制; btree SAP HANA ERP 中的HANA是内存数据库。SAP 介绍: http://baijiahao.baidu.com/s? 阅读全文
摘要:
lucene : 倒排索引 如下: 我 (1:1) {0} 表示第一行出现一次,索引位置为0 elasticsearch 部署 elasticsearch-2.2.1.zip 192.168.112.101 node1 192.168.112.102 node2 192.168.112.103 node3 三台机器,每台机器上都部署。 es不能以roo... 阅读全文
摘要:
添加impala服务 启动impala 默认是 -V 如: [root@node21 ~]# implat-shell -V [root@node21 ~]# implala-shell -p ## 显示详细执行计划 阅读全文
摘要:
国内大数据发行版: 星环科技http://www.transwarp.cn/ 华为 ### grant all on *.* to 'temp'@'%' identified by 'temp' with grant option; 报错时参考。 选择免费版本第二项 修改错误点击重新运行。 阅读全文
摘要:
## 由于走到ETL 环节 17 阅读全文
摘要:
操作系统是CentOS7 节点规划 配置niginx 为大数据项目做准备 node2 配置nginx 阅读全文
摘要:
时间参数格式举例: js-sdk,java-sdk startURL工具画时序图 node204 上安装nginx(tengine) js-sdk,java-sdk访问方法: 亦可以在命令行运行时的参数。 单节点配置 多节点配置 AVRO 格式(通过RPC发送数据) kafka 与flume一般组对 阅读全文