任重而道远的小蜗牛

2019年7月4日

SparkSQL（一）--(SQL+DataFrame+functions+DataSet)

摘要：常见的SQL On Hadoop框架 hive（非常重要）：最原始的on hadoop的方案，由facebook贡献；将sql转化为底层MR/Tez/Spark作业；hive的metastore存储了表和库的所有信息，而且他几乎是和所有 on hadoop的框架通用的，hive2.x.x版本速度上有阅读全文

posted @ 2019-07-04 17:01 任重而道远的小蜗牛阅读(541) 评论(0) 推荐(0) 编辑

DataFram 与RDD转换

摘要：文件内容：文件内容：方法一：反射,通过RDD[CaseClass] 自定义 CaseClass 方法一：反射,通过RDD[CaseClass] 转成DF以后，就相当于有了schema，就可以当成table啦方法二：通过RDD[Row]+Schema 方法二：通过RDD[Row]+Schem 阅读全文

posted @ 2019-07-04 16:53 任重而道远的小蜗牛阅读(342) 评论(0) 推荐(0) 编辑

2019年7月1日

使用Flume往kafka和hdfs里同时写数据

摘要：环境背景 Zookeeper部署参照第4部 flume的部署 kafka部署 kafka部署配置Flume作业配置Flume作业使用Flume的TailDir Source采集数据发送到Kafka以及HDFS。具体配置如下：启动命令启动命令阅读全文

posted @ 2019-07-01 17:25 任重而道远的小蜗牛阅读(1025) 评论(0) 推荐(0) 编辑

2019年6月24日

Flume（二）(Multiple Agent+ Multiple Channel+Custom)

摘要： (Multiple Agent+ Multiple Channel+Custom) Flume（一）文章我们详细介绍了单Agent的生产演进过程，但是生产上是需要从多台机器上采集数据的，故更多的是多Agent的串联和并联组合使用。如下图串联的Agent 串联的Agent一定是采用Avro Sink和阅读全文

posted @ 2019-06-24 16:58 任重而道远的小蜗牛阅读(496) 评论(0) 推荐(0) 编辑

2019年6月21日

第一阶段总结

摘要： 1.画出你们的大数据架构，然后针对架构提问，如何做到精准一次、小文件规避等2.为什么会产生小文件3.为什么Hadoop不怕数据量大，却怕文件小4.你能告诉我路径占不占元数据内存，如果占，占多少5.小文件会产生什么样的问题，产生的问题会对你们的集群产生什么样的影响6.画出Yarn工程流程7.mr和sp 阅读全文

posted @ 2019-06-21 09:10 任重而道远的小蜗牛阅读(309) 评论(0) 推荐(0) 编辑

第二阶段总结

摘要：第二阶段总结1.你们使用的spark运行模式，Spark On Yarn 的工作流程，client和cluster的区别（driver再哪里）2.Spark用的版本？Spark内存管理，画出来，然后给一个案例，excutor要申请300M内存的过程。新版是跑不起来的原来是1.63.直接看面试官电脑上阅读全文

posted @ 2019-06-21 09:10 任重而道远的小蜗牛阅读(383) 评论(0) 推荐(0) 编辑

RDD的checkpoint机制和键值对RDD数据分区

摘要： checkpoint原理机制当RDD使用cache机制从内存中读取数据，如果数据没有读到，会使用checkpoint机制读取数据。此时如果没有checkpoint机制，那么就需要找到父RDD重新计算数据了，因此checkpoint是个很重要的的容错机制。checkpoint就是对于一个RDDcha 阅读全文

posted @ 2019-06-21 09:06 任重而道远的小蜗牛阅读(409) 评论(0) 推荐(0) 编辑

2019年6月20日

广播变量与累加器

摘要：广播变量与累加器在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是阅读全文

posted @ 2019-06-20 15:27 任重而道远的小蜗牛阅读(919) 评论(0) 推荐(0) 编辑

2019年6月19日

Spark的监控

摘要： Monitoring spark的监控我们目前只介绍4种，分别是通过Spark UI进行监控使用Spark HistoryServer UI进行监控使用REST API进行监控 Metrics 通过Spark UI进行监控 Spark的webUI界面给我们提供了非常好的作业监控界面，通过仔细观阅读全文

posted @ 2019-06-19 15:05 任重而道远的小蜗牛阅读(2938) 评论(4) 推荐(0) 编辑

2019年6月18日

Spark和MR的区别

摘要：自己总结 MR是基于进程，spark是基于线程 Spark的多个task跑在同一个进程上，这个进程会伴随spark应用程序的整个生命周期，即使没有作业进行，进程也是存在的 MR的每一个task都是一个进程，当task完成时，进程也会结束所以，spark比MR快的原因也在这，MR启动就需要申请资源，阅读全文

posted @ 2019-06-18 17:25 任重而道远的小蜗牛阅读(6437) 评论(0) 推荐(3) 编辑

IT界的小十七

公告