11 2017 档案
摘要:本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势 发表于 2017-02-28 | 更新于 2017-10-17 | 本文结合实例详细阐明了Spark数据倾斜的几种场景
阅读全文
摘要:1. 谈谈你mvc的理解MVC是Model—View—Controler的简称。即模型—视图—控制器。MVC是一种设计模式,它强制性的把应用程序的输入、处理和输出分开。MVC中的模型、视图、控制器它们分别担负着不同的任务。 (1)视图: 视图是用户看到并与之交互的界面。视图向用户显示相关的数据,并接
阅读全文
摘要:explain SQL 会解释SQL的执行过程
阅读全文
摘要:package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf, SparkContext} //spark中的RDD测试 object RddTest { def main(args: Array[String]): Unit = { val conf =...
阅读全文
摘要:例子为本地的路径 spark计算过程: spark程序运行在分布式计算平台之上,Driver会生成一个DAG调度,就是job中的有向无环图,之后会向nodeManager申请资源,nodemanager会创建多个executor,driver中的DGA调度中的task会转移到executor上进行计
阅读全文
摘要:centos下设置alias别名,比较简单,例如: vim /root/.bashrc addalias rm='rm -i' Linux alias设置指令的别名命令详解 功能说明:设置指令的别名。语 法:alias[别名]=[指令名称]补充说明:用户可利用alias,自定指令的别名。若仅输入al
阅读全文
摘要:kafka启动流程: 创建topic kafka-topics.sh --zookeeper master:2181 --create --partitions 2 --replication-factor 3 --topic bd14first 查看topic: kafka-topics.sh -
阅读全文
摘要:flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind=master a1.sources.r1.port=44444 a1.sinks.s1.type=h
阅读全文
摘要:在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。
阅读全文
摘要:Flume 是什么 Apache Flume是一个高可靠、高可用的分布式的海量日志收集、聚合、传输系统。它可以从不同的日志源采集数据并集中存储。 Flume也算是Hadoop生态系统的一部分,源于Cloudera,目前是Apache基金会的顶级项目之一。Flume有两条产品线,0.9.x版本和1.x
阅读全文
摘要:注意 MM,DD,MO,TU 等要大写 Hive 可以在 where 条件中使用 case when 已知日期 要求日期 语句 结果 本周任意一天 本周一 select date_sub(next_day('2016-11-29','MO'),7) ; 2016-11-28 本周任意一天 上周一 s
阅读全文