文章分类 -  大数据

摘要:转载 原文地址:https://www.hangge.com/blog/cache/detail_2965.html 基本介绍 HBase 是一个分布式的、面向列的开源的 NoSQL 数据库。它是 Apache Hadoop 中的一个子项目,Hbase 依托于 Hadoop 的 HDFS 作为最基本 阅读全文
posted @ 2021-03-20 13:59 远洪 阅读(0) 评论(0) 推荐(0) 编辑
摘要:参考地址:https://blog.csdn.net/csj941227/article/details/79536464 前提条件 jdk 安装(略) hadoop 安装参考:https://www.cnblogs.com/liyuanhong/articles/14559030.html zoo 阅读全文
posted @ 2021-03-20 11:01 远洪 阅读(183) 评论(0) 推荐(0) 编辑
摘要:参考地址: https://segmentfault.com/a/1190000011266759 https://blog.csdn.net/fanxin_i/article/details/80425461 一、准备工作 JDK:1.8 Hadoop Releasecentos或debian或者 阅读全文
posted @ 2021-03-19 18:32 远洪 阅读(19) 评论(0) 推荐(0) 编辑
摘要:参考地址: https://www.cnblogs.com/nicekk/p/11561836.html https://www.cnblogs.com/frankdeng/p/9400622.html 一、flink涉及到的基础概念 Flink 几个最基础的概念,Client、JobManager 阅读全文
posted @ 2021-03-11 16:52 远洪 阅读(284) 评论(0) 推荐(0) 编辑
摘要:Hadoop:是一个分布式计算的开源框架 HDFS:是Hadoop的三大核心组件之一 Hive:用户处理存储在HDFS中的数据,hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。 Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据 阅读全文
posted @ 2021-03-11 15:05 远洪 阅读(26951) 评论(1) 推荐(3) 编辑
摘要:转载 原文地址:https://cloud.tencent.com/developer/article/1131482 一、为什么需要hadoop? 在数据量很大的情况下,单机的处理能力无法胜任,必须采用分布式集群的方式进行处理,而用分布式集群的方式处理数据,实现的复杂度呈级数增加。所以,在海量数据 阅读全文
posted @ 2021-03-11 14:23 远洪 阅读(3803) 评论(0) 推荐(0) 编辑
摘要:转载 原文地址:https://www.cnblogs.com/qingyunzong/p/9004593.html 一、kafka架构图 如上图所示,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的Page View,或者是服务器日志,系统CPU、Memory等),若干b 阅读全文
posted @ 2021-03-11 14:19 远洪 阅读(101) 评论(0) 推荐(0) 编辑
摘要:转载 原文地址:https://www.cnblogs.com/qingyunzong/p/9004509.html 简介 1.1概述 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于 阅读全文
posted @ 2021-03-11 13:54 远洪 阅读(111) 评论(0) 推荐(0) 编辑
摘要:转载 原文地址:https://blog.csdn.net/u010020099/article/details/82290403 kafka是一款基于发布与订阅的消息系统。它一般被称为“分布式提交日志”或者“分布式流平台”。文件系统或者数据库提交日志用来提供所有事物的持久化记录,通过重建这些日志可 阅读全文
posted @ 2020-01-17 11:49 远洪 阅读(541) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示