上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页
摘要: 常见的SQL On Hadoop框架 hive(非常重要):最原始的on hadoop的方案,由facebook贡献;将sql转化为底层MR/Tez/Spark作业;hive的metastore存储了表和库的所有信息,而且他几乎是和所有 on hadoop的框架通用的,hive2.x.x版本速度上有 阅读全文
posted @ 2019-07-04 17:01 任重而道远的小蜗牛 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 文件内容: 文件内容: 方法一:反射,通过RDD[CaseClass] 自定义 CaseClass 方法一:反射,通过RDD[CaseClass] 转成DF以后,就相当于有了schema,就可以当成table啦 方法二: 通过RDD[Row]+Schema 方法二: 通过RDD[Row]+Schem 阅读全文
posted @ 2019-07-04 16:53 任重而道远的小蜗牛 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 环境背景 Zookeeper部署 参照第4部 flume的部署 kafka部署 kafka部署 配置Flume作业 配置Flume作业 使用Flume的TailDir Source采集数据发送到Kafka以及HDFS。具体配置如下: 启动命令 启动命令 阅读全文
posted @ 2019-07-01 17:25 任重而道远的小蜗牛 阅读(1025) 评论(0) 推荐(0) 编辑
摘要: (Multiple Agent+ Multiple Channel+Custom) Flume(一)文章我们详细介绍了单Agent的生产演进过程,但是生产上是需要从多台机器上采集数据的,故更多的是多Agent的串联和并联组合使用。如下图串联的Agent 串联的Agent一定是采用Avro Sink和 阅读全文
posted @ 2019-06-24 16:58 任重而道远的小蜗牛 阅读(496) 评论(0) 推荐(0) 编辑
摘要: 1.画出你们的大数据架构,然后针对架构提问,如何做到精准一次、小文件规避等2.为什么会产生小文件3.为什么Hadoop不怕数据量大,却怕文件小4.你能告诉我路径占不占元数据内存,如果占,占多少5.小文件会产生什么样的问题,产生的问题会对你们的集群产生什么样的影响6.画出Yarn工程流程7.mr和sp 阅读全文
posted @ 2019-06-21 09:10 任重而道远的小蜗牛 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 第二阶段总结1.你们使用的spark运行模式,Spark On Yarn 的工作流程,client和cluster的区别(driver再哪里)2.Spark用的版本?Spark内存管理,画出来,然后给一个案例,excutor要申请300M内存的过程。新版是跑不起来的原来是1.63.直接看面试官电脑上 阅读全文
posted @ 2019-06-21 09:10 任重而道远的小蜗牛 阅读(383) 评论(0) 推荐(0) 编辑
摘要: checkpoint原理机制 当RDD使用cache机制从内存中读取数据,如果数据没有读到,会使用checkpoint机制读取数据。此时如果没有checkpoint机制,那么就需要找到父RDD重新计算数据了,因此checkpoint是个很重要的的容错机制。checkpoint就是对于一个RDDcha 阅读全文
posted @ 2019-06-21 09:06 任重而道远的小蜗牛 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 广播变量与累加器 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是 阅读全文
posted @ 2019-06-20 15:27 任重而道远的小蜗牛 阅读(919) 评论(0) 推荐(0) 编辑
摘要: Monitoring spark的监控我们目前只介绍4种,分别是 通过Spark UI进行监控 使用Spark HistoryServer UI进行监控 使用REST API进行监控 Metrics 通过Spark UI进行监控 Spark的webUI界面给我们提供了非常好的作业监控界面,通过仔细观 阅读全文
posted @ 2019-06-19 15:05 任重而道远的小蜗牛 阅读(2938) 评论(4) 推荐(0) 编辑
摘要: 自己总结 MR是基于进程,spark是基于线程 Spark的多个task跑在同一个进程上,这个进程会伴随spark应用程序的整个生命周期,即使没有作业进行,进程也是存在的 MR的每一个task都是一个进程,当task完成时,进程也会结束 所以,spark比MR快的原因也在这,MR启动就需要申请资源, 阅读全文
posted @ 2019-06-18 17:25 任重而道远的小蜗牛 阅读(6437) 评论(0) 推荐(3) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页