大数据(Spark) - 随笔分类 - sandea

大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等（持续更新）

摘要：常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口Zookeepe 阅读全文

posted @ 2019-12-18 18:28 sandea 阅读(1741) 评论(0) 推荐(1)

理解Spark RDD中的aggregate函数(转)

摘要：针对Spark的RDD，API中有一个aggregate函数，本人理解起来费了很大劲，明白之后，mark一下，供以后参考。首先，Spark文档中aggregate函数定义如下 def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, 阅读全文

posted @ 2019-12-11 10:25 sandea 阅读(624) 评论(0) 推荐(0)

spark跑YARN模式或Client模式提交任务不成功（application state: ACCEPTED）(转)

摘要：不多说，直接上干货！问题详情电脑8G，目前搭建3节点的spark集群，采用YARN模式。 master分配2G，slave1分配1G,slave2分配1G。（在安装虚拟机时） export SPARK_WORKER_MERMORY=1g （在spark-env.sh）其实这个问题解决办法很简单阅读全文

posted @ 2019-11-25 18:29 sandea 阅读(2188) 评论(0) 推荐(0)

Parquet介绍及简单使用（转）

摘要：==> 什么是parquet Parquet 是列式存储的一种文件类型 ==> 官网描述： Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless 阅读全文

posted @ 2019-11-23 19:32 sandea 阅读(4218) 评论(1) 推荐(0)

parquet 简介(转)

摘要：原文 Parquet 列式存储格式面向分析型业务的列式存储格式由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目列式存储列式存储和行式存储相比有哪些优势呢？当时 Twitter 的日增数据量达到压缩之后的 1 阅读全文

posted @ 2019-11-23 19:30 sandea 阅读(1259) 评论(0) 推荐(0)

Spark动态资源分配-Dynamic Resource Allocation

摘要：微信搜索lxw1234bigdata | 邀请体验：数阅–数据管理、OLAP分析与可视化平台 | 赞助作者：赞助作者微信搜索lxw1234bigdata | 邀请体验：数阅–数据管理、OLAP分析与可视化平台 | 赞助作者：赞助作者 Spark动态资源分配-Dynamic Resource All 阅读全文

posted @ 2019-11-22 15:06 sandea 阅读(1422) 评论(0) 推荐(0)

Spark配置参数详解

摘要：以下是整理的Spark中的一些配置参数，官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统： Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置阅读全文

posted @ 2019-11-22 14:48 sandea 阅读(8667) 评论(0) 推荐(0)

sandea

随笔分类 - 大数据(Spark)

公告