摘要: 数仓特征:面向主题,集成,非易失的,时变。数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,不是所谓的“大型数据库”。 数据库与数据仓库的区别(OLTP 与 OLAP 的区别) 操作型处理,叫联机事务处理 OLTP(On-Line Transaction Proc 阅读全文
posted @ 2020-10-10 14:37 但求大数据开发一职 阅读(536) 评论(2) 推荐(1)
摘要: Hadoop是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 特性:扩容能力,成本低,高效 ,可靠性 首次启动 HDFS 时,必须对其进行格式化操作。本质上是一些清理和准备工 阅读全文
posted @ 2020-10-10 10:39 但求大数据开发一职 阅读(193) 评论(0) 推荐(0)
摘要: Zookeeper是分布式开源协调服务, 主要用来解决分布式集群中应用系统的一致性问题. 本质上是分布式小文件存储系统。 特性 全局数据一致性(集群中每个服务器保存一份相同的数据副本,Client 无论连接到哪个服务器,展示的数据都是一致的,这是最重要的特征) 可靠性 顺序性 数据更新原子性(要不成 阅读全文
posted @ 2020-10-09 16:47 但求大数据开发一职 阅读(475) 评论(2) 推荐(2)