返回顶部
扩大
缩小

Heaton

随笔分类 -  ④大数据篇

大数据篇:一文读懂@数据仓库(PPT文字版)
摘要:大数据篇:一文读懂@数据仓库 1 网络词汇总结 1.1 数据中台 数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。 数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一 阅读全文

posted @ 2020-07-24 18:22 咘雷扎克 阅读(4558) 评论(2) 推荐(6) 编辑

大数据篇:数据仓库案例
摘要:离线数据仓库 数据仓库(Data WareHouse)是为企业所有决策制定过程,提供所有系统数据支持的战略集合 通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制、成本、提高产品质量等 数据仓库,并不是数据最终目的地,而是为数据最终的目的地做好准备:清洗、转义、分类、重组、合并、拆分、统计 阅读全文

posted @ 2020-07-06 17:21 咘雷扎克 阅读(8447) 评论(7) 推荐(20) 编辑

大数据篇:一文读懂@数据仓库(文字版)
摘要:大数据篇:一文读懂@数据仓库 1 网络词汇总结 人工智能层的:智慧地球、智慧城市、智慧社会 企业层面的:数字互联网,数字经济、数字平台、数字城市、数字政府; 平台层面的:物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱 技术层面的:数据仓库、数据集市、大数据平台、数据湖、数据中台 阅读全文

posted @ 2020-06-17 15:48 咘雷扎克 阅读(2062) 评论(4) 推荐(9) 编辑

大数据篇:Spark
摘要:大数据篇:Spark Spark是什么 Spark是一个快速(基于内存),通用,可扩展的计算引擎,采用Scala语言编写。2009年诞生于UC Berkeley(加州大学伯克利分校,CAL的AMP实验室),2010年开源,2013年6月进入Apach孵化器,2014年成为Apach顶级项目,目前有1 阅读全文

posted @ 2020-04-18 22:27 咘雷扎克 阅读(1894) 评论(0) 推荐(3) 编辑

大数据篇:Hbase
摘要:大数据篇:Hbase Hbase是什么 Hbase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库,物理结构存储结构(K V)。 如果没有Hbase 如何在大数据场景中,做到上亿数据秒级返回。(有条件:单条数据,范围数据) "hbase.apache.org" 1 Hbase结构及数据类型 阅读全文

posted @ 2020-04-12 16:14 咘雷扎克 阅读(1262) 评论(0) 推荐(2) 编辑

大数据篇:Hive
摘要:大数据篇:Hive "hive.apache.org" Hive是什么? Hive是Facebook开源的用于解决海量结构化日志的数据统计,是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并且提供类SQL查询功能,本质是将HQL转化成MapReduce程序。 数据存储在HD 阅读全文

posted @ 2020-04-06 23:31 咘雷扎克 阅读(1160) 评论(0) 推荐(0) 编辑

大数据篇:Flume
摘要:大数据篇:Flume "flume.apache.org" Flume是什么? Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方( 阅读全文

posted @ 2020-04-05 18:17 咘雷扎克 阅读(515) 评论(0) 推荐(0) 编辑

大数据篇:Kafka
摘要:大数据篇:Kafka "kafka.apache.org" Kafka 是什么? Kafka是一种高吞吐量的分布式发布、订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通 阅读全文

posted @ 2020-04-05 13:27 咘雷扎克 阅读(1181) 评论(0) 推荐(0) 编辑

大数据篇:ElasticSearch
摘要:大数据篇:ElasticSearch ElasticSearch是什么 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发 阅读全文

posted @ 2020-03-12 15:44 咘雷扎克 阅读(1123) 评论(2) 推荐(4) 编辑

大数据篇:Zookeeper
摘要:大数据篇:Zookeeper 1 Zookeeper概念 Zookeeper是什么 是一个基于观察者设计模式的分布式服务管理框架,它负责和管理需要关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。 Z 阅读全文

posted @ 2020-02-19 23:44 咘雷扎克 阅读(947) 评论(1) 推荐(1) 编辑

大数据篇:YARN
摘要:大数据篇:YARN YARN是什么? YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 如果没有YARN! 1. 无法管理集群资源分配问题。 2. 无法合理的给程序分配合 阅读全文

posted @ 2020-02-17 22:25 咘雷扎克 阅读(1469) 评论(0) 推荐(0) 编辑

大数据篇:MapReduce
摘要:大数据篇:MapReduce MapReduce是什么? MapReduce源自于Google发表于2004年12月的MapReduce论文,是面向大数据并行处理的计算模型、框架和平台,而Hadoop MapReduce是Google MapReduce克隆版。 如果没有MapReduce! 1. 阅读全文

posted @ 2020-02-17 19:53 咘雷扎克 阅读(513) 评论(0) 推荐(0) 编辑

大数据篇:HDFS
摘要:大数据篇:HDFS HDFS是什么? Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明 阅读全文

posted @ 2020-02-17 19:49 咘雷扎克 阅读(2246) 评论(0) 推荐(3) 编辑

导航