摘要: 一.数据仓库概念 将多数据源中的数据整合一起,进行数据分析,此时数据仓库对多种业务数据进行筛选和整合,可以用于数据分析、数据挖掘、数据报表。时效性T+1. 二.数据仓库的特点 主题性:数据仓库是针对某个主题来进行组织,比如滴滴出行,司机行为分析就是一个主题,所以可以将多种不同的数据源进行整合。而传统 阅读全文
posted @ 2019-02-23 00:59 冰魄秋雨 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce 原理 MapReduce 是一种变成模式,用于大规模的数据集的分布式运算。通俗的将就是会将任务分给不同的机器做完,然后在收集汇总。 MapReduce有两个核心:Map,Reduce,它们分别单独计算任务,每个机器尽量计算自己hdfs内部的保存信息,Reduce则将计算结果汇 阅读全文
posted @ 2019-02-23 00:33 冰魄秋雨 阅读(5471) 评论(0) 推荐(0) 编辑