上一页 1 ··· 4 5 6 7 8 9 10 11 12 13 下一页
摘要: explain SQL 会解释SQL的执行过程 阅读全文
posted @ 2017-11-24 10:56 最最么么哒 阅读(946) 评论(0) 推荐(0) 编辑
摘要: package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf, SparkContext} //spark中的RDD测试 object RddTest { def main(args: Array[String]): Unit = { val conf =... 阅读全文
posted @ 2017-11-21 21:23 最最么么哒 阅读(4614) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-11-20 16:31 最最么么哒 阅读(520) 评论(0) 推荐(0) 编辑
摘要: 例子为本地的路径 spark计算过程: spark程序运行在分布式计算平台之上,Driver会生成一个DAG调度,就是job中的有向无环图,之后会向nodeManager申请资源,nodemanager会创建多个executor,driver中的DGA调度中的task会转移到executor上进行计 阅读全文
posted @ 2017-11-20 15:14 最最么么哒 阅读(1715) 评论(0) 推荐(0) 编辑
摘要: centos下设置alias别名,比较简单,例如: vim /root/.bashrc addalias rm='rm -i' Linux alias设置指令的别名命令详解 功能说明:设置指令的别名。语 法:alias[别名]=[指令名称]补充说明:用户可利用alias,自定指令的别名。若仅输入al 阅读全文
posted @ 2017-11-20 12:32 最最么么哒 阅读(851) 评论(0) 推荐(0) 编辑
摘要: kafka启动流程: 创建topic kafka-topics.sh --zookeeper master:2181 --create --partitions 2 --replication-factor 3 --topic bd14first 查看topic: kafka-topics.sh - 阅读全文
posted @ 2017-11-09 11:44 最最么么哒 阅读(216) 评论(0) 推荐(0) 编辑
摘要: flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind=master a1.sources.r1.port=44444 a1.sinks.s1.type=h 阅读全文
posted @ 2017-11-07 17:55 最最么么哒 阅读(8926) 评论(0) 推荐(0) 编辑
摘要: 在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 阅读全文
posted @ 2017-11-06 20:23 最最么么哒 阅读(390) 评论(0) 推荐(0) 编辑
摘要: Flume 是什么 Apache Flume是一个高可靠、高可用的分布式的海量日志收集、聚合、传输系统。它可以从不同的日志源采集数据并集中存储。 Flume也算是Hadoop生态系统的一部分,源于Cloudera,目前是Apache基金会的顶级项目之一。Flume有两条产品线,0.9.x版本和1.x 阅读全文
posted @ 2017-11-06 19:50 最最么么哒 阅读(735) 评论(0) 推荐(0) 编辑
摘要: 注意 MM,DD,MO,TU 等要大写 Hive 可以在 where 条件中使用 case when 已知日期 要求日期 语句 结果 本周任意一天 本周一 select date_sub(next_day('2016-11-29','MO'),7) ; 2016-11-28 本周任意一天 上周一 s 阅读全文
posted @ 2017-11-01 00:01 最最么么哒 阅读(7873) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 13 下一页