2022 年 5月随笔档案 - 大数据老司机

Docker资源隔离（namespace，cgroups）

摘要：一、概述 Docker容器的本质是宿主机上的一个进程。Docker通过namespace实现了资源隔离，通过cgroups实现了资源限制，通过*写时复制机制（copy-on-write）*实现了高效的文件操作。二、Linux内核的namespace机制 namespace 机制提供一种资源隔离方案阅读全文

posted @ 2022-05-31 23:55 大数据老司机阅读(1675) 评论(0) 推荐(1) 编辑

Docker四种网络模式（Bridge，Host，Container，None）

摘要：一、Docker网络模式简介基于对Network Namespace的控制，docker可以为在容器创建隔离的网络环境，在隔离的网络环境下，容器具有完全独立的网络栈，与宿主机隔离，也可以使容器共享主机或者其他容器的网络命名空间，基本可以满足开发者在各种场景下的需要。按docker官方的说法，doc 阅读全文

posted @ 2022-05-31 00:16 大数据老司机阅读(9390) 评论(0) 推荐(1) 编辑

Docker数据卷—Volumes

摘要：一、引入Docker数据卷的必然性为了实现容器与主机之间、容器与容器之间共享文件，容器中数据的持久化，将容器中的数据备份、迁移、恢复等,Docker加入了数据卷(volumes)机制。简单的讲，就是做了一个文件夹的实时共享，有点像局域网的文件共享。二、Docker挂载容器数据卷目前Docker 阅读全文

posted @ 2022-05-29 08:44 大数据老司机阅读(1857) 评论(0) 推荐(0) 编辑

搭建企业级docker仓库—Harbor

摘要：一、简介 docker 官方提供的私有仓库 registry，用起来虽然简单，但在管理的功能上存在不足。 Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器，harbor使用的是官方的docker registry(v2命名是distribution)服务去完成。har 阅读全文

posted @ 2022-05-28 15:43 大数据老司机阅读(557) 评论(0) 推荐(0) 编辑

分布式开源协调服务——Zookeeper

摘要：一、ZooKeeper概述 Apache ZooKeeper 是一个集中式服务，用于维护配置信息、命名、提供分布式同步和提供组服务，ZooKeeper 致力于开发和维护一个开源服务器，以实现高度可靠的分布式协调，其实也可以认为就是一个分布式数据库，只是结构比较特殊，是树状结构。官网文档：https: 阅读全文

posted @ 2022-05-26 23:39 大数据老司机阅读(498) 评论(0) 推荐(1) 编辑

大数据Hadoop之——Kafka 图形化工具 EFAK（EFAK环境部署）

摘要：一、概述 EFAK（Eagle For Apache Kafka，以前称为 Kafka Eagle）是一款由国内公司开源的Kafka集群监控系统，可以用来监视kafka集群的broker状态、Topic信息、IO、内存、consumer线程、偏移量等信息，并进行可视化图表展示。独特的KQL还可以通过阅读全文

posted @ 2022-05-26 00:29 大数据老司机阅读(2882) 评论(0) 推荐(2) 编辑

大数据Hadoop之——数据采集存储到HDFS实战（Python版本）

摘要：要实现这个示例，必须先安装好hadoop和hive环境，环境部署可以参考我之前的文章：大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）大数据Hadoop之——数据仓库Hive 【流程图如下】【示例代码如下】 #!/usr/bin/env python # - 阅读全文

posted @ 2022-05-24 22:39 大数据老司机阅读(1543) 评论(0) 推荐(0) 编辑

大数据Hadoop之——数据同步工具DataX

摘要：一、概述 DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS) 阅读全文

posted @ 2022-05-23 22:32 大数据老司机阅读(2697) 评论(0) 推荐(0) 编辑

大数据Hadoop之——数据同步工具Sqoop

摘要：一、概述 Apache Sqoop（SQL-to-Hadoop）项目旨在协助RDBMS（Relational Database Management System：关系型数据库管理系统）与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 Had 阅读全文

posted @ 2022-05-22 20:40 大数据老司机阅读(1020) 评论(0) 推荐(0) 编辑

大数据Hadoop之——数据分析引擎Apache Pig

摘要：一、Apache Pig概述 Apache PIG提供一套高级语言平台，用于对结构化与非结构化数据集进行操作与分析。这种语言被称为Pig Latin，其属于一种脚本形式，可直接立足于PIG shell执行或者通过Pig Server进行触发。用户所创建的脚本会在初始阶段由Pig Latin处理引擎进阅读全文

posted @ 2022-05-22 18:35 大数据老司机阅读(1088) 评论(0) 推荐(0) 编辑

大数据Hadoop之——任务调度器Oozie（Oozie环境部署）

摘要：一、概述 Oozie是一个基于工作流引擎的开源框架，依赖于MapReduce来实现，是一个管理 Apache Hadoop 作业的工作流调度系统。是由Cloudera公司贡献给Apache的，它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。Oozie需要部署到Java 阅读全文

posted @ 2022-05-21 19:11 大数据老司机阅读(1895) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Hadoop图形化管理系统Hue（Hue环境部署）

摘要：一、概述 Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作阅读全文

posted @ 2022-05-20 21:45 大数据老司机阅读(2721) 评论(0) 推荐(0) 编辑

大数据Hadoop之——基于Hive的内存型SQL查询引擎Impala（Impala环境部署）

摘要：一、概述 Impala 直接针对存储在 HDFS、HBase或 Amazon Simple Storage Service (S3)中的 Apache Hadoop 数据提供快速的交互式 SQL 查询。Impala是一个基于Hive、分布式、大规模并行处理(MPP：Massively Paralle 阅读全文

posted @ 2022-05-19 23:43 大数据老司机阅读(902) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Cloudera Hadoop（CM 6.3.1+CDH 6.3.2环境部署）

摘要：一、概述在众多 Hadoop 版本中， CDH（Cloudera Hadoop）是 Hadoop 众多分支中比较出色的版本，它由Cloudera 发行和维护。CDH 基于 Apache 的 Hadoop 进行重新构建，提供了基于 Web 页面的群集部署和管理操作。Hadoop发行版除了社区的A 阅读全文

posted @ 2022-05-18 22:25 大数据老司机阅读(5101) 评论(0) 推荐(0) 编辑

大数据Hadoop之——基于内存型SQL查询引擎Presto（Presto-Trino环境部署）

摘要：一、概述 Presto是Facebook开源的MPP（Massively Parallel Processing：大规模并行处理）架构的OLAP（on-line transaction processing：联机分析处理），完全基于内存的并⾏计算，可针对不同数据源，执行大容量数据集的一款分布式SQL 阅读全文

posted @ 2022-05-17 22:01 大数据老司机阅读(2212) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Azkaban API详解

摘要：一、Azkaban API概述通常，企业里一般不用使用web UI去设置或者执行任务，只是单纯的在页面上查看任务或者排查问题，更多的是通过Azkaban API去提交执行任务计划。Azkaban提供了一些常用的API操作，可以通过curl或其他HTTP请求客户端访问。但是API调用都需要首先进行适阅读全文

posted @ 2022-05-16 22:14 大数据老司机阅读(1240) 评论(0) 推荐(0) 编辑

大数据Hadoop之——任务调度器Azkaban（Azkaban环境部署）

摘要：一、概述 1）什么是任务调度？大数据平台技术框架支持的开发语言多种多样，开发人员的背景差异也很大，这就产生出很多不同类型的程序（任务）运行在大数据平台之上，如：MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。这些任务需要不同的运行环境，并且除了定时运行，阅读全文

posted @ 2022-05-15 18:27 大数据老司机阅读(2705) 评论(0) 推荐(1) 编辑

Scala基础

摘要：一、概述 Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习大数据开发, 需要掌握Scala这门语言，当然Spark的兴起，也带动Scala语言的发展！官方文档阅读全文

posted @ 2022-05-14 18:08 大数据老司机阅读(475) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Flink CEP（Complex Event Processing：复合事件处理）详解（kafka on window）

摘要：一、概述复合事件处理（简称Complex Event Processing：CEP）是一种基于动态环境中事件流的分析技术，事件在这里通常是有意义的状态变化，通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的时序关系和聚合关系制定检测规则，持续地从事件流中查询出符合要求的事件序列，最终分阅读全文

posted @ 2022-05-14 17:04 大数据老司机阅读(1529) 评论(0) 推荐(0) 编辑

Git常用操作（Gitlab）

摘要：一、git概述 Git 是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同，它采用了分布式版本库阅读全文

posted @ 2022-05-14 01:11 大数据老司机阅读(1255) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Flink的状态管理和容错机制(checkpoint)

摘要：一、Flink中的状态官方文档有状态的计算是流处理框架要实现的重要功能，因为稍复杂的流处理场景都需要记录状态，然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能：数据流中的数据有重复，想对重复数据去重，需要记录哪些数据已经流入过应用，当新数据流入时，根据已流入过的数阅读全文

posted @ 2022-05-11 22:04 大数据老司机阅读(1302) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Flink中的Window API+时间语义+Watermark

摘要：一、window 概念窗口（window）是处理无限流的核心。窗口将流分割成有限大小的“桶”，我们可以在桶上应用计算。本文档重点介绍如何在Flink中执行窗口操作，以及程序员如何从其提供的功能中获得最大的好处。一个有窗口的Flink程序的一般结构如下所示。第一个片段指的是键控流，而第二个片段指的阅读全文

posted @ 2022-05-10 22:17 大数据老司机阅读(1548) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Flink DataStream API 和 DataSet API

摘要：一、DataStream API概述 Flink 中的 DataStream 程序是对数据流（例如过滤、更新状态、定义窗口、聚合）进行转换的常规程序。数据流的起始是从各种源（例如消息队列、套接字流、文件）创建的。结果通过 sink 返回，例如可以将数据写入文件或标准输出（例如命令行终端）。Flink 阅读全文

posted @ 2022-05-09 21:57 大数据老司机阅读(1065) 评论(0) 推荐(0) 编辑

大数据Hadoop之——搭建本地flink开发环境详解（window10）

摘要：一、下载安装IDEA IDEA2020.2.3版本：https://www.cnblogs.com/liugp/p/13868346.html 最新版本安装详情请参考：https://www.jb51.net/article/196349.htm 二、搭建本地hadoop环境（window10）可阅读全文

posted @ 2022-05-08 17:23 大数据老司机阅读(3564) 评论(0) 推荐(1) 编辑

大数据Hadoop之——部署hadoop+hive环境（window10）

摘要：一、安装JDK8 【温馨提示】这里使用jdk8，这里不要用其他jdk了，可能会出现一些其他问题的，我用jdk11有些包就找不到，好像jdk9都不行 1）JDK下载地址 http://www.oracle.com/technetwork/java/javase/downloads/index.html 阅读全文

posted @ 2022-05-08 00:02 大数据老司机阅读(1637) 评论(1) 推荐(0) 编辑

大数据Hadoop之——Flink Table API 和 SQL（单机Kafka）

摘要：一、Table API 和 Flink SQL 是什么 Table API 和 SQL 集成在同一套 API 中。这套 API 的核心概念是Table，用作查询的输入和输出，这套 API 都是批处理和流处理统一的上层 API，这意味着在无边界的实时数据流和有边界的历史记录数据流上，关系型 API 阅读全文

posted @ 2022-05-05 22:55 大数据老司机阅读(1277) 评论(0) 推荐(0) 编辑

大数据Hadoop之——实时计算流计算引擎Flink（Flink环境部署）

摘要：一、概述 Flink核心是一个流式的数据流执行引擎，并且能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布，数据通信及容错机制等功能。基于流执行引擎，Flink提供了跟多高抽象层的API便于用户编写分布式任务，下面稍微介绍一下Flink的几种A 阅读全文

posted @ 2022-05-04 22:18 大数据老司机阅读(3270) 评论(0) 推荐(0) 编辑

Java-Maven详解

摘要：一、什么是Maven？ Apache Maven是一个软件项目管理的综合工具。基于项目对象模型（POM）的概念，提供了帮助管理构建、文档、报告、依赖、发布等方法，Maven简化和标准化项目建设过程。处理编译，分配，文档，团队协作和其他任务的无缝连接。 Maven增加可重用性并负责建立相关的任务。 1 阅读全文

posted @ 2022-05-04 15:20 大数据老司机阅读(1857) 评论(0) 推荐(0) 编辑

大数据Hadoop之——Spark Streaming原理

摘要：一、概述 Spark Streaming是对核心Spark API的一个扩展，它能够实现对实时数据流的流式处理，并具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据，如：Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字，并阅读全文

posted @ 2022-05-02 11:09 大数据老司机阅读(665) 评论(0) 推荐(0) 编辑

技术栈

匠人精神，持之以恒！

05 2022 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论