摘要:
概述 之前写过spark批量导入Hbase的案例: "Spark、BulkLoad Hbase、单列、多列" ,实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。 最近看 "官网的文档" ,发现有两种方法: 73节的 中的为我之前实现的方法 111节的 为hbase spark中自带的方法 阅读全文
摘要:
使用flink FlinkKafkaProducer 往kafka写入数据的时候要求使用EXACTLY_ONCE语义 本以为本以为按照官网写一个就完事,但是却报错了 代码 遇到问题 当 指定为 时,执行没有问题。 当 指定为 时,执行报下面的错误: 错误大意是: 事务超时大于broker允许的最大值 阅读全文
摘要:
jstat 用于查看服务器上某个服务的GC情况。 一般使用方式 或``jstat –utilpid`` 时间间隔—每个一定时间(指定的时间间隔)输出一次进程pid的内存情况及gc情况。 1. 类加载统计( class) Loaded | Bytes|Unloaded|Bytes|Time : :|: 阅读全文
摘要:
背景 之前的博客: "Spark:DataFrame写HFile (Hbase)一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。 现在要用spark 2.3.2 阅读全文
摘要:
0. 添加一块磁盘 参考上一篇博文 "VMware Workstation 添加磁盘 挂载目录(centos)" 1. 查看当前磁盘挂载情况 2. 磁盘分区 [root@node1 ~] fdisk /dev/sdc //选择操作的磁盘 Welcome to fdisk (util linux 2. 阅读全文
摘要:
参考文档: "Linux命令大全" 需求:测试环境虚拟机某个目录下空间不足,准备通过添加一块磁盘,并将该目录挂载到该磁盘 前面几步在测试服务器上操作的,截图困难,所以网上找了几张设置图 关闭虚拟机(没测试过不关闭的情况) 虚拟机中添加一块新的磁盘 选择磁盘类型 创建新磁盘 设置大小、拆分方式 设定文 阅读全文
摘要:
组建信息 组件 | 版本|下载地址 : :|: :|: : maven | 3.6.1 | https://maven.apache.org/ jdk | jdk1.8.0 | https://www.oracle.com/technetwork/java/javase/downloads/jdk8 阅读全文
摘要:
Shuffle 概述 影响Spark性能的大BOSS就是shuffle,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行调优。 当然,影响 Spark 性能的还有代码开发、参数设置数以及数据倾斜的解决等,甚至这部分 阅读全文
摘要:
什么是数据倾斜? Spark 的计算抽象如下 数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 如果数据倾斜不能解决,其他的优化手段再逆天都白搭,如同短板效应,任务完成 阅读全文
摘要:
SparkContext 是什么? 1. 驱动程序使用SparkContext与集群进行连接和通信,它可以帮助执行Spark任务,并与资源管理器(如YARN 或Mesos)进行协调。 2. 使用SparkContext,可以访问其他上下文,比如SQLContext和HiveContext。 3. 使 阅读全文