随笔分类 -  大数据(Spark)

摘要:常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口Zookeepe 阅读全文
posted @ 2019-12-18 18:28 sandea 阅读(1534) 评论(0) 推荐(1) 编辑
摘要:针对Spark的RDD,API中有一个aggregate函数,本人理解起来费了很大劲,明白之后,mark一下,供以后参考。 首先,Spark文档中aggregate函数定义如下 def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, 阅读全文
posted @ 2019-12-11 10:25 sandea 阅读(606) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式。 master分配2G,slave1分配1G,slave2分配1G。(在安装虚拟机时) export SPARK_WORKER_MERMORY=1g (在spark-env.sh) 其实这个问题解决办法很简单 阅读全文
posted @ 2019-11-25 18:29 sandea 阅读(2104) 评论(0) 推荐(0) 编辑
摘要:==> 什么是parquet Parquet 是列式存储的一种文件类型 ==> 官网描述: Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless 阅读全文
posted @ 2019-11-23 19:32 sandea 阅读(4059) 评论(1) 推荐(0) 编辑
摘要:原文 Parquet 列式存储格式 面向分析型业务的列式存储格式 由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目 列式存储 列式存储和行式存储相比有哪些优势呢? 当时 Twitter 的日增数据量达到压缩之后的 1 阅读全文
posted @ 2019-11-23 19:30 sandea 阅读(1239) 评论(0) 推荐(0) 编辑
摘要:微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者 微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者 Spark动态资源分配-Dynamic Resource All 阅读全文
posted @ 2019-11-22 15:06 sandea 阅读(1344) 评论(0) 推荐(0) 编辑
摘要:以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的conf/spark-env.sh脚本设置 阅读全文
posted @ 2019-11-22 14:48 sandea 阅读(8594) 评论(0) 推荐(0) 编辑