代码改变世界

随笔档案-2021年11月

Spark调优

2021-11-23 13:54 by DataBases, 193 阅读, 收藏, 编辑
摘要: RDDRDD的全称是 Resilient Distributed Datasets,这是Spark的一种数据抽象集合,它可以被执行在分布式的集群上进行各种操作,而且有较强的容错机制。RDD可以被分为若干个分区,每一个分区就是一个数据集片段,从而可以支持分布式计算。 RDD运行时的角色及相关名词有 C 阅读全文

spark streaming 的两种实现方式

2021-11-19 17:43 by DataBases, 40 阅读, 收藏, 编辑
摘要: /usr/local/spark-2.4.3-bin-hadoop2.7/examples/src/main/python/streaming spark-submit --master yarn --queue comm network_wordcount.py 172.24.4.71 9999 阅读全文

YARN HA Failover 导致 RM状态异常问题

2021-11-17 11:41 by DataBases, 1721 阅读, 收藏, 编辑
摘要: 2021-11-15 18:52:15,361 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting2021-11-15 18:52:15,372 INFO org.apache.hadoop.ipc.Server: IP 阅读全文

HDFS YARN

2021-11-08 18:05 by DataBases, 73 阅读, 收藏, 编辑
摘要: Hive开窗函数整理 https://www.cnblogs.com/zz-ksw/p/12917693.html Hadoop基础-HDFS的API常见操作 https://www.cnblogs.com/yinzhengjie/p/9906192.html Yarn 的三种资源调度器详解 htt 阅读全文

为什么export PYTHONPATH=$PYTHONPATH 将当前工作目录放在系统路径?

2021-11-05 14:27 by DataBases, 4096 阅读, 收藏, 编辑
摘要: 在修改以冒号分隔的环境变量时,例如 PYTHONPATH、PATH、CPATH、MANPATH、LD_LIBRARY_PATH、PKG_CONFIG_PATH 等......其中一些变量对尾随冒号具有特殊意义,而其他变量则没有。对于 PYTHONPATH 和 PATH,如果变量之前未设置,可以以不会 阅读全文
点击右上角即可分享
微信分享提示