大数据之路

博客园 首页 新随笔 联系 订阅 管理

2019年12月15日 #

摘要: 主要的需求 针对大体量表的OLAP统计查询,需要找到一个稳定,高性能的大数据数据库,具体使用 数据可以实时的写入和查询,并发的tps不是很高 建立数据仓库,模式上主要采用星星模型、雪花模型,或者宽表 前端展示 分为3类 saiku、granafa、c#代码开发 数据体量:事实表在3-5亿、维度表大的 阅读全文
posted @ 2019-12-15 21:13 小潘 阅读(5262) 评论(1) 推荐(1) 编辑

摘要: 环境部署: hbase 采用azure的虚机,存储采用azure的blockblob。 问题: 生产碰到过几次,hbase master无法启动的问题,这种情况下是可以正常读写,但是如果这个时候,发生master切换,集群是无法正常工作的,后果是灾难性的。 此时 hbase master 界面无法访 阅读全文
posted @ 2019-12-15 20:41 小潘 阅读(807) 评论(0) 推荐(0) 编辑

2019年8月25日 #

摘要: 一、概述 hbase 写入优化除了参数配置之外,很大的一块要考虑避免region的热点问题,避免region 热点问题,主要的目的是提高hbase 数据表rowkey的分散。结合实际情况主要有以下几个办法 1.1 rowkey的创建规则 避免, 比如 通过rowkey前几位的hash。业务规则避免, 阅读全文
posted @ 2019-08-25 21:51 小潘 阅读(586) 评论(0) 推荐(0) 编辑

2019年8月22日 #

摘要: 目前正在使用tispark 进行离线计算,简单记录一下操作过程 一、技术验证 解决方案: 使用tispark 直接访问tidb的数据,采用spark的lag函数计算 SELECT billid,MAX(Diff) AS MaxHVDiff,MIN(Diff) AS MinHVDiff, '20190 阅读全文
posted @ 2019-08-22 10:59 小潘 阅读(1123) 评论(0) 推荐(0) 编辑

2019年7月14日 #

摘要: 大数据下的ETL工具是否还使用Kettle?&&kettle的核心执行逻辑 阅读全文
posted @ 2019-07-14 15:41 小潘 阅读(2936) 评论(1) 推荐(1) 编辑