徐软件 - 博客园

2019年3月21日

摘要：状态：部分 region 的状态为 FAILED_CLOSE，且一直停留在 RIT，不可服务。 1. 首先，到 hbase region 上查日志(/var/log/hbase/)，看到是 hdfs 文件的问题（参考 https://www.cnblogs.com/cenliang/p/848501 阅读全文

posted @ 2019-03-21 12:11 徐软件阅读(735) 评论(0) 推荐(0)

2019年3月20日

hbase meta中分区信息错误的记录

摘要： bulk write hbase 时遇到下面的错误： sudo -u hbase hbase hbck 检查，存在 inconsistence，其中表 ap:users_v2 有错误，但显示为 sudo -u hbase hbase hbck -repair 修复，解决了 inconsistence 阅读全文

posted @ 2019-03-20 14:35 徐软件阅读(774) 评论(0) 推荐(0)

2019年3月3日

spark aggregateByKey 时 java.lang.OutOfMemoryError: GC overhead limit exceeded

摘要：最后发现有一个用户单日访问我们网站次数为 4千万，直接导致 aggregate 时内存不够。过滤掉该用户即可。阅读全文

posted @ 2019-03-03 19:37 徐软件阅读(320) 评论(0) 推荐(0)

2019年2月16日

在 aws emr 上，将 hbase table A 的数据，对 key 做 hash，写到另外一张 table B

摘要：先 scan 原表，然后 bulkload 到新表。采坑纪录1. bulkload 产生 hfile 前，需要先对 hash(key) 做 repartition，在 shuffle 的 read 阶段，产生了以下错误原因：在 shuffle 的 read 阶段，会申请一个跟 block（或pa 阅读全文

posted @ 2019-02-16 09:47 徐软件阅读(857) 评论(0) 推荐(1)

EMR 配置纪录（不断更新）

摘要：日志路径 -> /var/log（软连接到 /mnt/var/log）在 spark master 机器中，配置的路径为其中关键的配置 local-dirs: 应用的本地文件，官方解释为： List of directories to store localized files in. An a 阅读全文

posted @ 2019-02-16 09:45 徐软件阅读(302) 评论(0) 推荐(0)

2019年2月14日

使用 JvisualVM 监控 spark executor

摘要：使用 JvisualVM，需要先配置 java 的启动参数 jmx 正常情况下，如下配置然后如下连接即可但在 spark 中，不能指定具体的 ip 和 port，于是需要如下配置（相关参数 spark.executor.extraJavaOptions）然后找到具体的 container，使用阅读全文

posted @ 2019-02-14 21:17 徐软件阅读(599) 评论(3) 推荐(0)

2019年2月12日

YARN 集群的资源分配

摘要： YARN 集群在分配任务时，存在两种方式 1. DefaultResourceCalculator，只考虑内存（memory），每个 container 的 cpu 资源都分配 1 个。 2. DominantResourceCalculator，同时考虑内存（memory）和 cpu 资源。在阅读全文

posted @ 2019-02-12 22:38 徐软件阅读(1433) 评论(0) 推荐(0)

spark bulkload hbase笔记

摘要： 1. 现有的三方包不能完全支持 - 官方：hbase-spark，不能设置 timestamp - unicredit/hbase-rdd：接口太复杂，不能同时支持多个 family 2. HFile 得是有序的，排序依据 KeyValue.KVComparator，于是我们自定义一个 Compar 阅读全文

posted @ 2019-02-12 14:00 徐软件阅读(2551) 评论(3) 推荐(2)

2019年2月2日

记一个 protobuf 的 jar 包冲突

摘要：尝试使用 spark 以 bulkload 的方式写 HBase 时，遇到一个问题，错误堆栈如下一开始以为是找不到 com.google.protobuf.ByteString，怎么都没想明白。后来找同事讨论，确定问题是找不到 return 为 com.google.protobuf.ByteSt 阅读全文

posted @ 2019-02-02 20:26 徐软件阅读(2552) 评论(0) 推荐(0)

2019年1月26日

Spark 写 Hive table 非常慢【解决】

摘要：代码如下： dataFrame.createOrReplaceTempView("view_page_utm")val sql = s""" |insert overwrite table data_lake_v1.urchin_tracking_module PARTITION(cd='$date 阅读全文

posted @ 2019-01-26 21:08 徐软件阅读(5854) 评论(0) 推荐(0)

徐软件的博客

或有时而不彰

公告