④大数据篇 - 随笔分类 - 咘雷扎克

大数据篇：一文读懂@数据仓库(PPT文字版)

摘要：大数据篇：一文读懂@数据仓库 1 网络词汇总结 1.1 数据中台数据中台是聚合和治理跨域数据，将数据抽象封装成服务，提供给前台以业务价值的逻辑概念。数据中台是一套可持续“让企业的数据用起来”的机制，一种战略选择和组织形式，是依据企业特有的业务模式和组织架构，通过有形的产品和实施方法论支撑，构建一阅读全文

posted @ 2020-07-24 18:22 咘雷扎克阅读(4843) 评论(2) 推荐(6)

大数据篇：数据仓库案例

摘要：离线数据仓库数据仓库（Data WareHouse）是为企业所有决策制定过程，提供所有系统数据支持的战略集合通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制、成本、提高产品质量等数据仓库，并不是数据最终目的地，而是为数据最终的目的地做好准备：清洗、转义、分类、重组、合并、拆分、统计阅读全文

posted @ 2020-07-06 17:21 咘雷扎克阅读(9066) 评论(7) 推荐(20)

大数据篇：一文读懂@数据仓库(文字版)

摘要：大数据篇：一文读懂@数据仓库 1 网络词汇总结人工智能层的：智慧地球、智慧城市、智慧社会企业层面的：数字互联网，数字经济、数字平台、数字城市、数字政府；平台层面的：物联网，云计算，大数据，5G，人工智能，机器智能，深度学习，知识图谱技术层面的：数据仓库、数据集市、大数据平台、数据湖、数据中台阅读全文

posted @ 2020-06-17 15:48 咘雷扎克阅读(2155) 评论(4) 推荐(9)

大数据篇：Spark

摘要：大数据篇：Spark Spark是什么 Spark是一个快速（基于内存），通用，可扩展的计算引擎，采用Scala语言编写。2009年诞生于UC Berkeley(加州大学伯克利分校，CAL的AMP实验室)，2010年开源，2013年6月进入Apach孵化器，2014年成为Apach顶级项目，目前有1 阅读全文

posted @ 2020-04-18 22:27 咘雷扎克阅读(2762) 评论(0) 推荐(3)

大数据篇：Hbase

摘要：大数据篇：Hbase Hbase是什么 Hbase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库，物理结构存储结构（K V）。如果没有Hbase 如何在大数据场景中，做到上亿数据秒级返回。(有条件：单条数据，范围数据) "hbase.apache.org" 1 Hbase结构及数据类型阅读全文

posted @ 2020-04-12 16:14 咘雷扎克阅读(1351) 评论(0) 推荐(2)

大数据篇：Hive

摘要：大数据篇：Hive "hive.apache.org" Hive是什么? Hive是Facebook开源的用于解决海量结构化日志的数据统计，是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并且提供类SQL查询功能，本质是将HQL转化成MapReduce程序。数据存储在HD 阅读全文

posted @ 2020-04-06 23:31 咘雷扎克阅读(1232) 评论(0) 推荐(0)

大数据篇：Flume

摘要：大数据篇：Flume "flume.apache.org" Flume是什么? Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（阅读全文

posted @ 2020-04-05 18:17 咘雷扎克阅读(575) 评论(0) 推荐(0)

大数据篇：Kafka

摘要：大数据篇：Kafka "kafka.apache.org" Kafka 是什么? Kafka是一种高吞吐量的分布式发布、订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通阅读全文

posted @ 2020-04-05 13:27 咘雷扎克阅读(1225) 评论(0) 推荐(0)

大数据篇：ElasticSearch

摘要：大数据篇：ElasticSearch ElasticSearch是什么 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发阅读全文

posted @ 2020-03-12 15:44 咘雷扎克阅读(1237) 评论(2) 推荐(4)

大数据篇：Zookeeper

摘要：大数据篇：Zookeeper 1 Zookeeper概念 Zookeeper是什么是一个基于观察者设计模式的分布式服务管理框架，它负责和管理需要关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。 Z 阅读全文

posted @ 2020-02-19 23:44 咘雷扎克阅读(1004) 评论(1) 推荐(1)

大数据篇：YARN

摘要：大数据篇：YARN YARN是什么? YARN是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。如果没有YARN! 1. 无法管理集群资源分配问题。 2. 无法合理的给程序分配合阅读全文

posted @ 2020-02-17 22:25 咘雷扎克阅读(1630) 评论(0) 推荐(0)

大数据篇：MapReduce

摘要：大数据篇：MapReduce MapReduce是什么? MapReduce源自于Google发表于2004年12月的MapReduce论文，是面向大数据并行处理的计算模型、框架和平台，而Hadoop MapReduce是Google MapReduce克隆版。如果没有MapReduce! 1. 阅读全文

posted @ 2020-02-17 19:53 咘雷扎克阅读(535) 评论(0) 推荐(0)

大数据篇：HDFS

摘要：大数据篇：HDFS HDFS是什么? Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明阅读全文

posted @ 2020-02-17 19:49 咘雷扎克阅读(2322) 评论(0) 推荐(3)

随笔分类 - ④大数据篇