￥王大胖￥ - 博客园

2019年4月16日

摘要：看阿里大数据之路一书，说到为什么要数据建模？记录如下 1、性能：良好的数据模型能帮助我们快速查询所需要的数据，减少数据的I/O吞吐； 2、成本：良好的数据模型能极大地减少不必要的数据冗余，也能实现计算结果符用，极大地降低大数据系统中的存储和计算成本 3、效率：良好的数据模型能极大地改善用户使用数据的阅读全文

posted @ 2019-04-16 19:13 ￥王大胖￥阅读(774) 评论(0) 推荐(0)

2018年12月18日

浅谈数据仓库（三）数据漂移处理

摘要：前言我们是一个做传统会员管理CRM的团队，应用数据的级别比较高，过去会存在这样一种现象，T+1 财务报表，运营统计各类报表的指标偶尔会和商户的自己记录用户消费储值记录会有出入，后来了解到，我们系统中存在很严重的数据漂移问题，这也是dw系统或者ods来说普遍存在的问题，今天我们好好聊下该如何解决数阅读全文

posted @ 2018-12-18 23:46 ￥王大胖￥阅读(2986) 评论(0) 推荐(0)

浅淡数据仓库（二）星型模式与OLAP多维数据库

摘要：在关系数据库管理系统中实现的维度模型称为星型模型模式，因为其结构类似星型结构。在多为数据库环境中实现的维度模型通常称为联机分析处理（OLAP）多维数据库阅读全文

posted @ 2018-12-18 22:32 ￥王大胖￥阅读(587) 评论(0) 推荐(0)

2018年12月17日

浅谈数据仓库（二）维度建模-简介

摘要：个人觉得维度建模是展现分析数据的首选技术，主要是基于一下两个需要同时满足的需求：（1）以商业用户可理解的方式发布数据（2）提供高效的查询性能维度建模并不是一种新技术，例如数据库用这种方式来简化，简单性至关重要，因为他能够确保用户方便地理解数据，以及确保应用能快速，有效的发现及发布结果举一个例阅读全文

posted @ 2018-12-17 21:28 ￥王大胖￥阅读(494) 评论(0) 推荐(0)

2018年12月10日

浅谈数据仓库（一）初识数据仓库

摘要：据了解，多数企业数据仓库都是维度模型，从今天开始，谈谈对于数据仓库的唯独建模理解；至于数据仓库模型，数据仓库理论先不赘述；首先先要明确，你们的目前多数据存储是否是数据仓库，还是ODS，还是RDBMS，这对于以下的内容理解会更深；一、数据获取与数据分析的区别（RDBMS/DW）对于人一个公司或者阅读全文

posted @ 2018-12-10 14:52 ￥王大胖￥阅读(277) 评论(0) 推荐(0)

2018年7月6日

关于数据上传阿里云MaxCompute调研

摘要： 1.背景当前的数据存储基于mysql库表存储形式，目前已经无法满足愈加增大的数据存储需求，新项目基于Maxcompute数据仓库架构，需要将统计日志上传Maxcompute，本文对Maxcompute系统数据上传进行调研，测试，包括基于LogStash收集的DataHub实时数据通道和批量数据通道阅读全文

posted @ 2018-07-06 14:54 ￥王大胖￥阅读(638) 评论(0) 推荐(0)

2018年5月24日

hive 调优（二）参数调优汇总

摘要：在hive调优（一）中说了一些常见的调优，但是觉得参数涉及不多，补充如下 1.设置合理solt数 mapred.tasktracker.map.tasks.maximum 每个tasktracker可同时运行的最大map task数，默认值2。 mapred.tasktracker.reduce. 阅读全文

posted @ 2018-05-24 10:56 ￥王大胖￥阅读(1859) 评论(0) 推荐(0)

2018年5月17日

spark-sql cli 参数及使用

摘要：很难找到spark-sql cli使用的教程，总结下一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g - 阅读全文

posted @ 2018-05-17 11:00 ￥王大胖￥阅读(4567) 评论(0) 推荐(0)

2018年5月16日

数据仓库深入了解

摘要：一、数据仓库概述前言阅读本文前，请先回答下面两个问题： 1. 数据库和数据仓库有什么区别？ 2. 某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束，也不完全满足范式要求，甚至第一范式都不满足。这种情况正常吗？如果您不能五秒内给出答案，那么本文应该是对您有帮助的。数据库的"分阅读全文

posted @ 2018-05-16 18:01 ￥王大胖￥阅读(686) 评论(0) 推荐(0)

2018年5月14日

修改hive 默认fs为s3 遇到的坑

摘要：问题： hive我修改了默认的f <property> <name>fs.defaultFS</name> <value>hdfs://。。。:8020</value> </property> 修改为<property> <name>fs.defaultFS</name> <value>s3:// 阅读全文

posted @ 2018-05-14 18:07 ￥王大胖￥阅读(1435) 评论(0) 推荐(0)

王大胖

公告