lillcol

2020年1月14日

摘要：概述之前写过spark批量导入Hbase的案例： "Spark、BulkLoad Hbase、单列、多列" ，实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。最近看 "官网的文档" ,发现有两种方法： 73节的中的为我之前实现的方法 111节的为hbase spark中自带的方法阅读全文

posted @ 2020-01-14 14:53 lillcol 阅读(1252) 评论(0) 推荐(0) 编辑

2019年12月24日

Flink 1.9 FlinkKafkaProducer 使用 EXACTLY_ONCE 错误记录

摘要：使用flink FlinkKafkaProducer 往kafka写入数据的时候要求使用EXACTLY_ONCE语义本以为本以为按照官网写一个就完事，但是却报错了代码遇到问题当指定为时，执行没有问题。当指定为时，执行报下面的错误：错误大意是：事务超时大于broker允许的最大值阅读全文

posted @ 2019-12-24 18:04 lillcol 阅读(5509) 评论(0) 推荐(0) 编辑

2019年10月22日

jvm监控命令-jstat

posted @ 2019-10-22 11:42 lillcol 阅读(254) 评论(0) 推荐(0) 编辑

2019年9月18日

Spark、BulkLoad Hbase、单列、多列

摘要：背景之前的博客： "Spark：DataFrame写HFile （Hbase）一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。现在要用spark 2.3.2 阅读全文

posted @ 2019-09-18 15:36 lillcol 阅读(2303) 评论(0) 推荐(0) 编辑

2019年9月3日

centos 根目录扩容

摘要： 0. 添加一块磁盘参考上一篇博文 "VMware Workstation 添加磁盘挂载目录(centos)" 1. 查看当前磁盘挂载情况 2. 磁盘分区 [root@node1 ~] fdisk /dev/sdc //选择操作的磁盘 Welcome to fdisk (util linux 2. 阅读全文

posted @ 2019-09-03 14:41 lillcol 阅读(4435) 评论(0) 推荐(0) 编辑

2019年8月26日

VMware Workstation 添加磁盘挂载目录(centos)

摘要：参考文档： "Linux命令大全" 需求：测试环境虚拟机某个目录下空间不足，准备通过添加一块磁盘，并将该目录挂载到该磁盘前面几步在测试服务器上操作的，截图困难，所以网上找了几张设置图关闭虚拟机（没测试过不关闭的情况）虚拟机中添加一块新的磁盘选择磁盘类型创建新磁盘设置大小、拆分方式设定文阅读全文

posted @ 2019-08-26 16:58 lillcol 阅读(2585) 评论(0) 推荐(0) 编辑

2019年8月13日

maven+scala+idea 环境构建

摘要：组建信息组件 | 版本|下载地址 : :|: :|: : maven | 3.6.1 | https://maven.apache.org/ jdk | jdk1.8.0 | https://www.oracle.com/technetwork/java/javase/downloads/jdk8 阅读全文

posted @ 2019-08-13 14:42 lillcol 阅读(780) 评论(0) 推荐(0) 编辑

2019年7月26日

Spark 调优之ShuffleManager、Shuffle

摘要： Shuffle 概述影响Spark性能的大BOSS就是shuffle，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对 shuffle 过程进行调优。当然，影响 Spark 性能的还有代码开发、参数设置数以及数据倾斜的解决等，甚至这部分阅读全文

posted @ 2019-07-26 15:06 lillcol 阅读(3150) 评论(0) 推荐(1) 编辑

2019年7月25日

Spark 调优之数据倾斜

摘要：什么是数据倾斜？ Spark 的计算抽象如下数据倾斜指的是：并行处理的数据集中，某一部分（如 Spark 或 Kafka 的一个 Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。如果数据倾斜不能解决，其他的优化手段再逆天都白搭，如同短板效应，任务完成阅读全文

posted @ 2019-07-25 18:51 lillcol 阅读(830) 评论(0) 推荐(0) 编辑

2019年7月23日

SparkSession、SparkContext、SQLContext和HiveContext之间的区别。

摘要： SparkContext 是什么? 1. 驱动程序使用SparkContext与集群进行连接和通信，它可以帮助执行Spark任务，并与资源管理器(如YARN 或Mesos)进行协调。 2. 使用SparkContext，可以访问其他上下文，比如SQLContext和HiveContext。 3. 使阅读全文

posted @ 2019-07-23 17:59 lillcol 阅读(10931) 评论(1) 推荐(0) 编辑

公告