05 2022 档案

摘要:一、概述 Docker容器的本质是宿主机上的一个进程。Docker通过namespace实现了资源隔离,通过cgroups实现了资源限制,通过*写时复制机制(copy-on-write)*实现了高效的文件操作。 二、Linux内核的namespace机制 namespace 机制提供一种资源隔离方案 阅读全文
posted @ 2022-05-31 23:55 大数据老司机 阅读(1675) 评论(0) 推荐(1) 编辑
摘要:一、Docker网络模式简介 基于对Network Namespace的控制,docker可以为在容器创建隔离的网络环境,在隔离的网络环境下,容器具有完全独立的网络栈,与宿主机隔离,也可以使容器共享主机或者其他容器的网络命名空间,基本可以满足开发者在各种场景下的需要。按docker官方的说法,doc 阅读全文
posted @ 2022-05-31 00:16 大数据老司机 阅读(9390) 评论(0) 推荐(1) 编辑
摘要:一、引入Docker数据卷的必然性 为了实现容器与主机之间、容器与容器之间共享文件,容器中数据的持久化,将容器中的数据备份、迁移、恢复等,Docker加入了数据卷(volumes)机制。简单的讲,就是做了一个文件夹的实时共享,有点像局域网的文件共享。 二、Docker挂载容器数据卷 目前Docker 阅读全文
posted @ 2022-05-29 08:44 大数据老司机 阅读(1857) 评论(0) 推荐(0) 编辑
摘要:一、简介 docker 官方提供的私有仓库 registry,用起来虽然简单 ,但在管理的功能上存在不足。 Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器,harbor使用的是官方的docker registry(v2命名是distribution)服务去完成。har 阅读全文
posted @ 2022-05-28 15:43 大数据老司机 阅读(557) 评论(0) 推荐(0) 编辑
摘要:一、ZooKeeper概述 Apache ZooKeeper 是一个集中式服务,用于维护配置信息、命名、提供分布式同步和提供组服务,ZooKeeper 致力于开发和维护一个开源服务器,以实现高度可靠的分布式协调,其实也可以认为就是一个分布式数据库,只是结构比较特殊,是树状结构。官网文档:https: 阅读全文
posted @ 2022-05-26 23:39 大数据老司机 阅读(498) 评论(0) 推荐(1) 编辑
摘要:一、概述 EFAK(Eagle For Apache Kafka,以前称为 Kafka Eagle)是一款由国内公司开源的Kafka集群监控系统,可以用来监视kafka集群的broker状态、Topic信息、IO、内存、consumer线程、偏移量等信息,并进行可视化图表展示。独特的KQL还可以通过 阅读全文
posted @ 2022-05-26 00:29 大数据老司机 阅读(2882) 评论(0) 推荐(2) 编辑
摘要:要实现这个示例,必须先安装好hadoop和hive环境,环境部署可以参考我之前的文章: 大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce) 大数据Hadoop之——数据仓库Hive 【流程图如下】 【示例代码如下】 #!/usr/bin/env python # - 阅读全文
posted @ 2022-05-24 22:39 大数据老司机 阅读(1543) 评论(0) 推荐(0) 编辑
摘要:一、概述 DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS) 阅读全文
posted @ 2022-05-23 22:32 大数据老司机 阅读(2697) 评论(0) 推荐(0) 编辑
摘要:一、概述 Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Database Management System:关系型数据库管理系统)与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Had 阅读全文
posted @ 2022-05-22 20:40 大数据老司机 阅读(1020) 评论(0) 推荐(0) 编辑
摘要:一、Apache Pig概述 Apache PIG提供一套高级语言平台,用于对结构化与非结构化数据集进行操作与分析。这种语言被称为Pig Latin,其属于一种脚本形式,可直接立足于PIG shell执行或者通过Pig Server进行触发。用户所创建的脚本会在初始阶段由Pig Latin处理引擎进 阅读全文
posted @ 2022-05-22 18:35 大数据老司机 阅读(1088) 评论(0) 推荐(0) 编辑
摘要:一、概述 Oozie是一个基于工作流引擎的开源框架,依赖于MapReduce来实现,是一个管理 Apache Hadoop 作业的工作流调度系统。是由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。Oozie需要部署到Java 阅读全文
posted @ 2022-05-21 19:11 大数据老司机 阅读(1895) 评论(0) 推荐(0) 编辑
摘要:一、概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作 阅读全文
posted @ 2022-05-20 21:45 大数据老司机 阅读(2721) 评论(0) 推荐(0) 编辑
摘要:一、概述 Impala 直接针对存储在 HDFS、HBase或 Amazon Simple Storage Service (S3)中的 Apache Hadoop 数据提供快速的交互式 SQL 查询。Impala是一个基于Hive、分布式、大规模并行处理(MPP:Massively Paralle 阅读全文
posted @ 2022-05-19 23:43 大数据老司机 阅读(902) 评论(0) 推荐(0) 编辑
摘要:一、概述 在众多 Hadoop 版本中, CDH(Cloudera Hadoop) 是 Hadoop 众多分支中比较出色的版本, 它由Cloudera 发行和维护。CDH 基于 Apache 的 Hadoop 进行重新构建,提供了基于 Web 页面的群集部署和管理操作。Hadoop发行版除了社区的A 阅读全文
posted @ 2022-05-18 22:25 大数据老司机 阅读(5101) 评论(0) 推荐(0) 编辑
摘要:一、概述 Presto是Facebook开源的MPP(Massively Parallel Processing:大规模并行处理)架构的OLAP(on-line transaction processing:联机分析处理),完全基于内存的并⾏计算,可针对不同数据源,执行大容量数据集的一款分布式SQL 阅读全文
posted @ 2022-05-17 22:01 大数据老司机 阅读(2212) 评论(0) 推荐(0) 编辑
摘要:一、Azkaban API概述 通常,企业里一般不用使用web UI去设置或者执行任务,只是单纯的在页面上查看任务或者排查问题,更多的是通过Azkaban API去提交执行任务计划。Azkaban提供了一些常用的API操作,可以通过curl或其他HTTP请求客户端访问。但是API调用都需要首先进行适 阅读全文
posted @ 2022-05-16 22:14 大数据老司机 阅读(1240) 评论(0) 推荐(0) 编辑
摘要:一、概述 1)什么是任务调度? 大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。 这些任务需要不同的运行环境,并且除了定时运行, 阅读全文
posted @ 2022-05-15 18:27 大数据老司机 阅读(2705) 评论(0) 推荐(1) 编辑
摘要:一、概述 Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习大数据开发, 需要掌握Scala这门语言,当然Spark的兴起,也带动Scala语言的发展!官方文档 阅读全文
posted @ 2022-05-14 18:08 大数据老司机 阅读(475) 评论(0) 推荐(0) 编辑
摘要:一、概述 复合事件处理(简称Complex Event Processing:CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分 阅读全文
posted @ 2022-05-14 17:04 大数据老司机 阅读(1529) 评论(0) 推荐(0) 编辑
摘要:一、git概述 Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同,它采用了分布式版本库 阅读全文
posted @ 2022-05-14 01:11 大数据老司机 阅读(1255) 评论(0) 推荐(0) 编辑
摘要:一、Flink中的状态 官方文档 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数 阅读全文
posted @ 2022-05-11 22:04 大数据老司机 阅读(1302) 评论(0) 推荐(0) 编辑
摘要:一、window 概念 窗口(window)是处理无限流的核心。窗口将流分割成有限大小的“桶”,我们可以在桶上应用计算。本文档重点介绍如何在Flink中执行窗口操作,以及程序员如何从其提供的功能中获得最大的好处。 一个有窗口的Flink程序的一般结构如下所示。第一个片段指的是键控流,而第二个片段指的 阅读全文
posted @ 2022-05-10 22:17 大数据老司机 阅读(1548) 评论(0) 推荐(0) 编辑
摘要:一、DataStream API概述 Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 阅读全文
posted @ 2022-05-09 21:57 大数据老司机 阅读(1065) 评论(0) 推荐(0) 编辑
摘要:一、下载安装IDEA IDEA2020.2.3版本:https://www.cnblogs.com/liugp/p/13868346.html 最新版本安装详情请参考:https://www.jb51.net/article/196349.htm 二、搭建本地hadoop环境(window10) 可 阅读全文
posted @ 2022-05-08 17:23 大数据老司机 阅读(3564) 评论(0) 推荐(1) 编辑
摘要:一、安装JDK8 【温馨提示】这里使用jdk8,这里不要用其他jdk了,可能会出现一些其他问题的,我用jdk11有些包就找不到,好像jdk9都不行 1)JDK下载地址 http://www.oracle.com/technetwork/java/javase/downloads/index.html 阅读全文
posted @ 2022-05-08 00:02 大数据老司机 阅读(1637) 评论(1) 推荐(0) 编辑
摘要:一、Table API 和 Flink SQL 是什么 Table API 和 SQL 集成在同一套 API 中。 这套 API 的核心概念是Table,用作查询的输入和输出,这套 API 都是批处理和流处理统一的上层 API,这意味着在无边界的实时数据流和有边界的历史记录数据流上,关系型 API 阅读全文
posted @ 2022-05-05 22:55 大数据老司机 阅读(1277) 评论(0) 推荐(0) 编辑
摘要:一、概述 Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布,数据通信及容错机制等功能。基于流执行引擎,Flink提供了跟多高抽象层的API便于用户编写分布式任务,下面稍微介绍一下Flink的几种A 阅读全文
posted @ 2022-05-04 22:18 大数据老司机 阅读(3270) 评论(0) 推荐(0) 编辑
摘要:一、什么是Maven? Apache Maven是一个软件项目管理的综合工具。基于项目对象模型(POM)的概念,提供了帮助管理构建、文档、报告、依赖、发布等方法,Maven简化和标准化项目建设过程。处理编译,分配,文档,团队协作和其他任务的无缝连接。 Maven增加可重用性并负责建立相关的任务。 1 阅读全文
posted @ 2022-05-04 15:20 大数据老司机 阅读(1857) 评论(0) 推荐(0) 编辑
摘要:一、概述 Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,如:Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字,并 阅读全文
posted @ 2022-05-02 11:09 大数据老司机 阅读(665) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示