hadoop/spark/storm - 随笔分类 - junneyang

数据仓库、数据湖、流批一体，终于有大神讲清楚了！

摘要：文章引用：https://zhuanlan.zhihu.com/p/141182199?from_voters_page=true 简介：数据仓库，数据湖，包括Flink社区提的流批一体，它们到底能解决什么问题？今天将由阿里云研究员从解决业务问题出发，将问题抽丝剥茧，从技术维度娓娓道来：为什么你需阅读全文

posted @ 2020-06-20 21:47 junneyang 阅读(3531) 评论(0) 推荐(0)

【Spark】为什么没有任务调度到新增的Worker之上？？？

摘要：参考资料： https://stackoverflow.com/questions/34818880/spark-why-tasks-assigned-only-to-one-worker?utm_medium=organic&utm_source=google_rich_qa&utm_campai 阅读全文

posted @ 2018-04-19 15:27 junneyang 阅读(358) 评论(0) 推荐(0)

【Spark】Spark性能调优

摘要：官网：http://spark.apache.org/docs/latest/tuning.html 1、引言提到Spark与Hadoop的区别，基本最常说的就是Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等。效率高的阅读全文

posted @ 2018-01-31 10:29 junneyang 阅读(811) 评论(0) 推荐(0)

【Storm】一张图搞定Storm的运行架构

摘要：阅读全文

posted @ 2018-01-25 18:56 junneyang 阅读(342) 评论(0) 推荐(0)

【Spark】榨干Spark性能-driver、exector内存突破256M

摘要：榨干Spark性能-driver、exector内存突破256M 阅读全文

posted @ 2018-01-11 13:40 junneyang 阅读(2973) 评论(0) 推荐(0)

【Spark】Sparkstreaming-性能调优

摘要：Sparkstreaming-性能调优阅读全文

posted @ 2018-01-11 13:39 junneyang 阅读(1602) 评论(0) 推荐(0)

【Spark】Spark-架构

摘要：Spark-架构 Spark-架构 Spark Master at spark://node-01:7077spark clustermanager_百度搜索看了之后不再迷糊-Spark多种运行模式 - 简书Spark不同Cluster Manager下的数据本地性表现 - CSDN博客Spark架阅读全文

posted @ 2018-01-11 13:38 junneyang 阅读(215) 评论(0) 推荐(0)

【Kafka】Kafka-副本-分区设置-性能调优

摘要：Kafka-副本-分区设置-性能调优阅读全文

posted @ 2018-01-11 13:38 junneyang 阅读(2713) 评论(0) 推荐(0)

【Spark】Spark-性能调优-系列文章

摘要：Spark-性能调优-系列文章阅读全文

posted @ 2018-01-11 13:37 junneyang 阅读(182) 评论(0) 推荐(0)

【Spark】SparkStreaming-Tasks-数量如何设置？

摘要：SparkStreaming-Tasks-数量如何设置？阅读全文

posted @ 2018-01-11 13:37 junneyang 阅读(2027) 评论(0) 推荐(0)

【Spark】Spark-空RDD判断与处理

摘要：Spark-空RDD判断与处理阅读全文

posted @ 2018-01-11 13:36 junneyang 阅读(4752) 评论(0) 推荐(0)

【Kafka】Kafka-分区数-备份数-如何设置-怎么确定-怎么修改

摘要：Kafka-分区数-备份数-如何设置-怎么确定-怎么修改阅读全文

posted @ 2018-01-11 13:35 junneyang 阅读(3009) 评论(0) 推荐(0)

【大数据】Spark-Hadoop-架构对比

摘要：Spark-Hadoop-架构对比注意，本文的多进程和多线程，指的是同一个节点上多个任务的运行模式。无论是MapReduce和Spark，整体上看，都是多进程：MapReduce应用程序是由多个独立的Task进程组成的；Spark应用程序的运行环境是由多个独立的Executor进程构建的临时资源池阅读全文

posted @ 2018-01-11 13:35 junneyang 阅读(575) 评论(0) 推荐(0)

【Kafka】Kafka-数据倾斜问题-参考资料-解决方案

摘要：Kafka-数据倾斜问题-参考资料-解决方案阅读全文

posted @ 2018-01-11 13:35 junneyang 阅读(3804) 评论(0) 推荐(0)

【Scala】Scala-使用ExecutorService-等待所有线程完成

摘要：Scala-使用ExecutorService-等待所有线程完成阅读全文

posted @ 2018-01-11 13:34 junneyang 阅读(896) 评论(0) 推荐(0)

【Spark】Sparkstreaming-共享变量-缓存RDD-到底是什么情况？

摘要：Sparkstreaming-共享变量-缓存RDD-到底是什么情况？阅读全文

posted @ 2018-01-11 13:32 junneyang 阅读(1273) 评论(0) 推荐(0)

【Scala】Scala-case-参考资料

摘要：Scala-case-参考资料阅读全文