摘要:
看阿里大数据之路一书,说到为什么要数据建模?记录如下 1、性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐; 2、成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果符用,极大地降低大数据系统中的存储和计算成本 3、效率:良好的数据模型能极大地改善用户使用数据的 阅读全文
摘要:
前言 我们是一个做传统会员管理CRM的团队,应用数据的级别比较高,过去会存在这样一种现象,T+1 财务报表,运营统计各类报表 的指标偶尔会和商户的自己记录用户消费储值记录会有出入,后来了解到,我们系统中存在很严重的数据漂移问题,这也是dw系统或者ods来说普遍存在的问题,今天我们好好聊下该如何解决数 阅读全文
摘要:
在关系数据库管理系统中实现的维度模型称为星型模型模式,因为其结构类似星型结构。在多为数据库环境中实现的维度模型通常称为联机分析处理(OLAP)多维数据库 阅读全文
摘要:
个人觉得维度建模是展现分析数据的首选技术,主要是基于一下两个需要同时满足的需求: (1)以商业用户可理解的方式发布数据 (2)提供高效的查询性能 维度建模并不是一种新技术,例如数据库用这种方式来简化,简单性至关重要,因为他能够确保用户方便地理解数据,以及确保应用能快速,有效的发现及发布结果 举一个例 阅读全文
摘要:
据了解,多数企业数据仓库都是维度模型,从今天开始,谈谈对于数据仓库的唯独建模理解;至于数据仓库模型,数据仓库理论先不赘述; 首先先要明确,你们的目前多数据存储是否是数据仓库,还是ODS,还是RDBMS,这对于以下的内容理解会更深; 一、数据获取与数据分析的区别(RDBMS/DW) 对于人一个公司或者 阅读全文
摘要:
1.背景 当前的数据存储基于mysql库表存储形式,目前已经无法满足愈加增大的数据存储需求,新项目基于Maxcompute数据仓库架构,需要将统计日志上传Maxcompute,本文对Maxcompute系统数据上传进行调研,测试,包括基于LogStash收集的DataHub实时数据通道和批量数据通道 阅读全文
摘要:
在hive调优(一) 中说了一些常见的调优,但是觉得参数涉及不多,补充如下 1.设置合理solt数 mapred.tasktracker.map.tasks.maximum 每个tasktracker可同时运行的最大map task数,默认值2。 mapred.tasktracker.reduce. 阅读全文
摘要:
很难找到spark-sql cli使用的教程,总结下一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g - 阅读全文
摘要:
一、数据仓库概述 前言 阅读本文前,请先回答下面两个问题: 1. 数据库和数据仓库有什么区别? 2. 某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束,也不完全满足范式要求,甚至第一范式都不满足。这种情况正常吗? 如果您不能五秒内给出答案,那么本文应该是对您有帮助的。 数据库的"分 阅读全文
摘要:
问题: hive我修改了 默认的f <property> <name>fs.defaultFS</name> <value>hdfs://。。。:8020</value> </property> 修改为<property> <name>fs.defaultFS</name> <value>s3:// 阅读全文