随笔分类 - hadoop/spark/storm
摘要:文章引用:https://zhuanlan.zhihu.com/p/141182199?from_voters_page=true 简介: 数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需
阅读全文
摘要:参考资料: https://stackoverflow.com/questions/34818880/spark-why-tasks-assigned-only-to-one-worker?utm_medium=organic&utm_source=google_rich_qa&utm_campai
阅读全文
摘要:官网:http://spark.apache.org/docs/latest/tuning.html 1、引言 提到Spark与Hadoop的区别,基本最常说的就是Spark采用基于内存的计算方式,尽管这种方式对数据处理的效率很高,但也会往往引发各种各样的问题,Spark中常见的OOM等等。效率高的
阅读全文
摘要:榨干Spark性能-driver、exector内存突破256M
阅读全文
摘要:Sparkstreaming-性能调优
阅读全文
摘要:Spark-架构 Spark-架构 Spark Master at spark://node-01:7077spark clustermanager_百度搜索看了之后不再迷糊-Spark多种运行模式 - 简书Spark不同Cluster Manager下的数据本地性表现 - CSDN博客Spark架
阅读全文
摘要:Kafka-副本-分区设置-性能调优
阅读全文
摘要:SparkStreaming-Tasks-数量如何设置?
阅读全文
摘要:Spark-性能调优-系列文章
阅读全文
摘要:Spark-空RDD判断与处理
阅读全文
摘要:Spark-Hadoop-架构对比 注意,本文的多进程和多线程,指的是同一个节点上多个任务的运行模式。无论是MapReduce和Spark,整体上看,都是多进程:MapReduce应用程序是由多个独立的Task进程组成的;Spark应用程序的运行环境是由多个独立的Executor进程构建的临时资源池
阅读全文
摘要:Kafka-分区数-备份数-如何设置-怎么确定-怎么修改
阅读全文
摘要:Kafka-数据倾斜问题-参考资料-解决方案
阅读全文
摘要:Scala-使用ExecutorService-等待所有线程完成
阅读全文
摘要:Scala-case-参考资料
阅读全文
摘要:Sparkstreaming-共享变量-缓存RDD-到底是什么情况?
阅读全文
摘要:Java-fastjson-基本使用方法
阅读全文
摘要:SparkStreaming-Kafka-集成-终极参考资料
阅读全文