随笔分类 -  hadoop/spark/storm

摘要:文章引用:https://zhuanlan.zhihu.com/p/141182199?from_voters_page=true 简介: 数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需 阅读全文
posted @ 2020-06-20 21:47 junneyang 阅读(3430) 评论(0) 推荐(0) 编辑
摘要:参考资料: https://stackoverflow.com/questions/34818880/spark-why-tasks-assigned-only-to-one-worker?utm_medium=organic&utm_source=google_rich_qa&utm_campai 阅读全文
posted @ 2018-04-19 15:27 junneyang 阅读(346) 评论(0) 推荐(0) 编辑
摘要:官网:http://spark.apache.org/docs/latest/tuning.html 1、引言 提到Spark与Hadoop的区别,基本最常说的就是Spark采用基于内存的计算方式,尽管这种方式对数据处理的效率很高,但也会往往引发各种各样的问题,Spark中常见的OOM等等。效率高的 阅读全文
posted @ 2018-01-31 10:29 junneyang 阅读(770) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-01-25 18:56 junneyang 阅读(334) 评论(0) 推荐(0) 编辑
摘要:榨干Spark性能-driver、exector内存突破256M 阅读全文
posted @ 2018-01-11 13:40 junneyang 阅读(2961) 评论(0) 推荐(0) 编辑
摘要:Sparkstreaming-性能调优 阅读全文
posted @ 2018-01-11 13:39 junneyang 阅读(1586) 评论(0) 推荐(0) 编辑
摘要:Spark-架构 Spark-架构 Spark Master at spark://node-01:7077spark clustermanager_百度搜索看了之后不再迷糊-Spark多种运行模式 - 简书Spark不同Cluster Manager下的数据本地性表现 - CSDN博客Spark架 阅读全文
posted @ 2018-01-11 13:38 junneyang 阅读(208) 评论(0) 推荐(0) 编辑
摘要:Kafka-副本-分区设置-性能调优 阅读全文
posted @ 2018-01-11 13:38 junneyang 阅读(2688) 评论(0) 推荐(0) 编辑
摘要:SparkStreaming-Tasks-数量如何设置? 阅读全文
posted @ 2018-01-11 13:37 junneyang 阅读(2014) 评论(0) 推荐(0) 编辑
摘要:Spark-性能调优-系列文章 阅读全文
posted @ 2018-01-11 13:37 junneyang 阅读(174) 评论(0) 推荐(0) 编辑
摘要:Spark-空RDD判断与处理 阅读全文
posted @ 2018-01-11 13:36 junneyang 阅读(4724) 评论(0) 推荐(0) 编辑
摘要:Spark-Hadoop-架构对比 注意,本文的多进程和多线程,指的是同一个节点上多个任务的运行模式。无论是MapReduce和Spark,整体上看,都是多进程:MapReduce应用程序是由多个独立的Task进程组成的;Spark应用程序的运行环境是由多个独立的Executor进程构建的临时资源池 阅读全文
posted @ 2018-01-11 13:35 junneyang 阅读(554) 评论(0) 推荐(0) 编辑
摘要:Kafka-分区数-备份数-如何设置-怎么确定-怎么修改 阅读全文
posted @ 2018-01-11 13:35 junneyang 阅读(2991) 评论(0) 推荐(0) 编辑
摘要:Kafka-数据倾斜问题-参考资料-解决方案 阅读全文
posted @ 2018-01-11 13:35 junneyang 阅读(3762) 评论(0) 推荐(0) 编辑
摘要:Scala-使用ExecutorService-等待所有线程完成 阅读全文
posted @ 2018-01-11 13:34 junneyang 阅读(889) 评论(0) 推荐(0) 编辑
摘要:Scala-case-参考资料 阅读全文
posted @ 2018-01-11 13:32 junneyang 阅读(501) 评论(0) 推荐(0) 编辑
摘要:Sparkstreaming-共享变量-缓存RDD-到底是什么情况? 阅读全文
posted @ 2018-01-11 13:32 junneyang 阅读(1263) 评论(0) 推荐(0) 编辑
摘要:Scala-循环与遍历 阅读全文
posted @ 2018-01-11 13:29 junneyang 阅读(806) 评论(0) 推荐(0) 编辑
摘要:Java-fastjson-基本使用方法 阅读全文
posted @ 2018-01-11 13:29 junneyang 阅读(297) 评论(0) 推荐(0) 编辑
摘要:SparkStreaming-Kafka-集成-终极参考资料 阅读全文
posted @ 2018-01-11 13:28 junneyang 阅读(436) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示