小潘 - 博客园

GreenPlum tidb 性能比较

摘要：主要的需求针对大体量表的OLAP统计查询，需要找到一个稳定，高性能的大数据数据库，具体使用数据可以实时的写入和查询，并发的tps不是很高建立数据仓库，模式上主要采用星星模型、雪花模型，或者宽表前端展示分为3类 saiku、granafa、c#代码开发数据体量：事实表在3-5亿、维度表大的阅读全文

posted @ 2019-12-15 21:13 小潘阅读(5326) 评论(1) 推荐(1) 编辑

hbase master 无法启动

摘要：环境部署： hbase 采用azure的虚机，存储采用azure的blockblob。问题：生产碰到过几次，hbase master无法启动的问题，这种情况下是可以正常读写，但是如果这个时候，发生master切换，集群是无法正常工作的，后果是灾难性的。此时 hbase master 界面无法访阅读全文

posted @ 2019-12-15 20:41 小潘阅读(835) 评论(0) 推荐(0) 编辑

hbase 集群写入能力优化-预分区、TTL的应用

摘要：一、概述 hbase 写入优化除了参数配置之外，很大的一块要考虑避免region的热点问题，避免region 热点问题，主要的目的是提高hbase 数据表rowkey的分散。结合实际情况主要有以下几个办法 1.1 rowkey的创建规则避免，比如通过rowkey前几位的hash。业务规则避免，阅读全文

posted @ 2019-08-25 21:51 小潘阅读(612) 评论(0) 推荐(0) 编辑

TiSpark 初级应用

摘要：目前正在使用tispark 进行离线计算，简单记录一下操作过程一、技术验证解决方案：使用tispark 直接访问tidb的数据，采用spark的lag函数计算 SELECT billid,MAX(Diff) AS MaxHVDiff,MIN(Diff) AS MinHVDiff, '20190 阅读全文

posted @ 2019-08-22 10:59 小潘阅读(1133) 评论(0) 推荐(0) 编辑

ETL-kettle 核心执行逻辑

摘要：大数据下的ETL工具是否还使用Kettle？&&kettle的核心执行逻辑阅读全文

posted @ 2019-07-14 15:41 小潘阅读(2975) 评论(1) 推荐(1) 编辑

大数据之路

公告