摘要: Spark是什么?答案:Apache Spark是一个快速、通用的大数据处理引擎,它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源,如HDFS、Hive、Cassandra等,并提供了丰富的API和工具集,用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 阅读全文
posted @ 2024-01-11 22:21 HOUHUILIN 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 什么是Hive?答案:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive的数据存储在哪里?答案:Hive的数据通常存储在Hadoop分布式文件系统(HDFS)上。Hive将HDFS上的数据映射成表格形式,并提供类似SQL的查询语 阅读全文
posted @ 2024-01-11 22:16 HOUHUILIN 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 什么是Zookeeper?答案:Zookeeper是一个分布式协调服务,主要用于管理和协调分布式系统中的各种服务和进程。它提供了一个集中式的配置管理、分布式同步、组服务等机制,使得分布式系统中的各种服务和进程能够协同工作。 Zookeeper的主要组件有哪些?答案:Zookeeper的主要组件包括Z 阅读全文
posted @ 2024-01-11 22:11 HOUHUILIN 阅读(21) 评论(0) 推荐(0) 编辑
摘要: Kafka是什么?它用于什么场景?答案:Kafka是一个分布式流平台,用于构建实时数据流管道和应用。它主要用于处理和传输大规模的流数据,例如日志、事件和其他类型的数据。Kafka广泛应用于大数据处理、实时流处理、消息队列等领域。 Kafka的主要组件有哪些?它们的作用是什么?答案:Kafka的主要组 阅读全文
posted @ 2024-01-11 22:07 HOUHUILIN 阅读(25) 评论(0) 推荐(0) 编辑
摘要: Ansible - [06] Playbook Playbook 概述 Ansible ad-hoc 可以通过命令行形式远程管理其他主机 适合执行一些临时性简单任务 Ansible playbook 中文名称叫 剧本 将经常需要执行的任务写入一个文件(剧本) 剧本中可以包含多个任务 剧本写好后,我们随时调用剧本,执行相关的任务名称 playboo 阅读全文
posted @ 2024-01-11 18:26 HOUHUILIN 阅读(13) 评论(0) 推荐(0) 编辑
摘要: Ansible - [05] 配置文件详解 主配置文件 ansible.cfg 修改sudo相关配置,在实际工作中,可能使用ansible时,所使用的用户并不是root用户,而是管理员给的一个普通用户,所以需要考虑ansible相关配置文件需要怎么写才能支持日常工作。 [defaults] inventory=~/ansible/hosts 阅读全文
posted @ 2024-01-11 17:51 HOUHUILIN 阅读(33) 评论(0) 推荐(0) 编辑
摘要: Ansible - [04] 关于sudo的一些配置 sudo sudo,以超级管理员或其他人的身份执行命令 基本流程 管理员需要先授权(修改/etc/sudoers文件) 普通用户以sudo的形式执行命令 可以通过sudo -l查看授权情况 配置suddoer:vim /etc/sudoers,进行如下配置,jerry用户可以无需输入密码即以root 阅读全文
posted @ 2024-01-11 11:56 HOUHUILIN 阅读(122) 评论(0) 推荐(0) 编辑
摘要: MySQL - [04] 分布式部署&主从复制&读写分离 一、前言 Q1:为什么需要主从复制? 1、在业务复杂的系统中,有一条SQL语句需要锁表,导致暂时不能使用读的服务,那么就很影响运行中的业务。使用主从复制,让主库负责写,从库负责读,这样即使主库出现了锁表的情景,通过读从库也可以保证业务的正常运作。 2、做数据的热备 3、架构的扩展。业务量越来越大,I 阅读全文
posted @ 2024-01-09 00:20 HOUHUILIN 阅读(120) 评论(0) 推荐(0) 编辑
摘要: Ansible - [03] Ansible ad-hoc模式 Ansible ad-hoc是一种通过命令行批量管理的方式 格式:ansible 主机集合 -m 模块名 -a "参数" 其他参数: -k 使用密码远程、-i 指定主机列表文件 以上是调用ping模块,模块就是脚本(多数为Python脚本),多数脚本都支持参数,默认模块是command comman 阅读全文
posted @ 2024-01-07 22:14 HOUHUILIN 阅读(65) 评论(1) 推荐(0) 编辑
摘要: Ansible - [02] 基础配置以及常用操作场景 Ansible 基础配置 主配置文件:/etc/ansible/ansible.cfg ansible配置文件查找顺序 首先检测ANSIBLE_CONFIG变量定义的配置 其次检查当前目录下的./ansible.cfg文件(可以在任意目录创建ansible目录,并参考默认ansible.cfg文件配 阅读全文
posted @ 2024-01-07 21:32 HOUHUILIN 阅读(40) 评论(0) 推荐(0) 编辑
摘要: nmtui 执行以下命令可以进入一个可视化界面,进行IP的可视化配置、以及网络服务的重启(注意,这个重启是停止然后启动, 如果使用xshell进行操作会失去ssh连接,直连服务器时可这直接操作)、主机名的修改 nmtui nmcli # 以下命令可以将网卡ens160的ip修改为192.168.4. 阅读全文
posted @ 2024-01-07 19:56 HOUHUILIN 阅读(21) 评论(0) 推荐(0) 编辑
摘要: Ansible - [01] 入门&安装部署 自动化运维工具,可以批量远程其他主机并进行管理操作 一、什么是 Ansible Ansible首次发布于2012年,作者:Michael DeHaan,同时也是Cobbler的作者,Ansible于2015年被RedHat收购; Ansible是一款自动化运维工具,基于Python开发。可以实现 批 阅读全文
posted @ 2024-01-07 19:48 HOUHUILIN 阅读(39) 评论(0) 推荐(0) 编辑
摘要: Step1:新建虚拟机 主页/文件 >> 创建新的虚拟机 新建虚拟机向导 典型(推荐)(T) 通过几个简单的步骤创建Workstation虚拟机 自定义(高级)(C) 创建带有SCSI控制器类型、虚拟磁盘类型以及旧版VMware产品兼容性等高级选项的虚拟机。 Step2:自定义(高级)(C) 1、选 阅读全文
posted @ 2024-01-06 21:54 HOUHUILIN 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 数据流转设计 表的分类 按所有权分类可分为:外部表(外表)和托管表(内部表、内表)。 按表的存储格式分类可分为:Text表、Orc表、Torc表、Holodesk表、Hyperbase表、ES表 按表是否分区可分为:分区表和非分区表 按表是否分桶可分为:分桶表和非分桶表 表的应用场景 数据集市交互式 阅读全文
posted @ 2023-12-25 00:17 HOUHUILIN 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 参考:Zabbix教程(Zabbix监控系统精讲) 一、监控介绍 Cacti Cacti 是一套基于PHP、MySQL、SNMP以及RRD Tool开发的监测图形分析工具,Cacti 是使用轮询的方式由主服务器向设备发送数据请求来获取设备上状态数据信息的,如果设备不断增多,这个轮询的过程就非常的耗时 阅读全文
posted @ 2023-12-23 23:55 HOUHUILIN 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 什么是Kubernetes? 背景 Kubernetes 是开源的容器集群管理项目,诞生于2014年,由Google公司发起 前身Borg系统在Google内部应用了十几年,积累了大量来自生产环境的实践经验 试图为基于容器的应用部署和管理打造一套强大并且易用的管理平台 该项目基于Go语言实现 介绍 阅读全文
posted @ 2023-12-17 16:10 HOUHUILIN 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 1.1 Docker简介 1.1.1 什么是Docker? 一种轻量级的操作系统虚拟化技术,基于Go语言实现的开源容器项目,诞生于2013年,最初发起者是dotCloud公司(现 Docker Inc) Docker容器化虚拟技术 vs 传统虚拟机技术 特性 容器 虚拟机 启动 秒级 分钟级 硬盘使 阅读全文
posted @ 2023-12-17 11:51 HOUHUILIN 阅读(14) 评论(0) 推荐(0) 编辑
摘要: Linux - lvm逻辑卷的操作 执行 lsblk如下所示: [root@idc-poc-60 ~]# lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT sr0 11:0 1 3.7G 0 rom sdb 8:16 0 200G 0 disk sda 8:0 0 600G 0 disk ├─ 阅读全文
posted @ 2023-11-24 18:44 HOUHUILIN 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 第1章 Argo基础 1.1 ArgoDB对象 说明 在ArgoDB中,可以使用常见的数据库对象,包括数据库(Database),表(Table),视图(View)和函数(Function) 可以使用ArgoDB SQL、ArgoDB PL/SQL来操作这些数据库对象 ArgoDB中数据库对象的元数 阅读全文
posted @ 2023-10-30 00:05 HOUHUILIN 阅读(95) 评论(0) 推荐(0) 编辑
摘要: ArgoDB:自主可控、国际领先、一站式满足湖仓集一体化建设的创新型分布式分析数据库 一、产品特点 统一的SQL编译引擎:支持标准SQL,兼容Teradata,Oracle,Db2等方言,应用开发门槛低,应用迁移改动少。 SQL支持: 支持ANSI 9/2003 兼容Teradata、Oracle、 阅读全文
posted @ 2023-10-29 14:14 HOUHUILIN 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 我姓侯,无论何时都想与你携手到白头。 阅读全文
posted @ 2023-10-28 16:41 HOUHUILIN 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 数据模型 关系模型与维度模型 常见数据模型设计方法 数据模型 1. 什么是数据模型 模型 - Model 模型是指对于某个实际问题或者客观事物、规律进行抽象后的一种形式化表达方式 比如地图、建筑设计沙盘、模型飞机等等…… 模型的建立为某些领域,带来了更多实际的意义 数据模型DM - Data Mod 阅读全文
posted @ 2023-10-26 21:34 HOUHUILIN 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 数据仓库概念 数据仓库基本架构 数据集市概念 数据湖概念 数据仓库概念 数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、非易失的、反映历史变化的、用来支持企业管理决策的数据集合。 数据仓库特点: 面向主题的(Subject Oriented) 主题是一个抽象的概念,是指用户使 阅读全文
posted @ 2023-10-24 00:18 HOUHUILIN 阅读(10) 评论(0) 推荐(0) 编辑
摘要: Kafka简介 Kafka原理 Kafka使用 Kafka简介 概念 基于发布/订阅的分布式消息系统 由Linkedin开发,用Scala语言编写 特性 消息持久化:采用时间复杂度O(1)的磁盘存储结构,即使TB级以上数据也能保证常数时间的访问速度 高吞吐:即使在廉价的商用机器上,也能达到单机每秒1 阅读全文
posted @ 2023-10-19 00:38 HOUHUILIN 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 简介 常用参数解析 案例 简介 常用参数解析 --compress:将导出的SQL文件压缩,减少文件大小。 --skip-lock-tables:在备份期间不锁定表,提高备份效率。 --single-transaction:只是用一个事务来备份所有表,减少备份时间。 该参数用于在备份期间只使用一个事 阅读全文
posted @ 2023-10-07 17:07 HOUHUILIN 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 1、精通数据平台运维相关的能力,及周边支撑能力,包括:Linux、K8S、Docker等,能够快速搭建集群、定位和修复集群的故障;这是基础2、提升端到端大数据平台能力,从数据接入到可视化;3、加强数据分析、数据建模的能力;4、学习数据治理相关的知识:熟悉数据标准、数据资产、数据质量、数据安全等5、在 阅读全文
posted @ 2023-09-19 23:38 HOUHUILIN 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 适用于Linux操作系统 禁ping 1、编辑 /etc/sysctl.conf 文件,文件末尾增加如下内容后,保存退出。 net.ipv4.icmp_echo_ignore_all = 1 2、在命令行执行如下命令(该命令会打印一下 /etc/sysctl.conf的内容,好像没有什么其他作用) 阅读全文
posted @ 2023-09-08 17:58 HOUHUILIN 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 系统预定义变量 常用系统变量 HOMEPWD、SHELLUSER 案例实操 1、查看系统变量的值:echo $HOME 2、显示当前Shell中所有变量:set 自定义变量 基本语法 定义变量:变量名=变量值,注意,=号前后不能有空格 撤销变量:unset 变量名 默认[root@loc 阅读全文
posted @ 2023-08-29 01:36 HOUHUILIN 阅读(15) 评论(0) 推荐(0) 编辑
摘要: <!-- 开头部分我准备设置目录 --> 脚本格式 脚本以 #!/bin/bash 开头(指定解析器) HelloWorld 【需求描述】 创建一个Shell脚本(helloWorld.sh),输出Hello World! #!/bin/bash echo "Hello World!" 【脚本执行】 阅读全文
posted @ 2023-08-29 01:15 HOUHUILIN 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 人生苦短,我用Python 一、Python 是什么 Python是一个高层次的结合了解释型、编译型、互动性和面向对象的脚本语言。 Python的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。 Python是一种解释型语言:这意味着开 阅读全文
posted @ 2023-08-29 00:33 HOUHUILIN 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 注意:本博客适用TDH版本4.3.x 默认该页面的 Guardian Client 是隐藏的,如果需要对 Guardian Client角色进行什么操作的话,需要先将 Guardian Client角色显示出来 那么该如何显示 Guardian Client 角色呢? 1、在后台访问 Transwa 阅读全文
posted @ 2023-08-22 20:45 HOUHUILIN 阅读(24) 评论(0) 推荐(0) 编辑
摘要: Everything FS Capture NotePad++ Typora DBeaver XMind Everything Everything是voidtools开发的一款文件搜索工具,这个软件可以让你在自己的电脑上快速找到要用到的文档、软件。它体积小巧,界面简洁易用,快速建立索引,快速搜索, 阅读全文
posted @ 2023-07-15 19:00 HOUHUILIN 阅读(25) 评论(0) 推荐(0) 编辑
摘要: docker - [11] 数据卷之DockerFile 通过DockerFile可以生成一个镜像 一、DockerFile的介绍 狂神:dockerfile是用来构建docker镜像的文件命令参数脚本。 狂神:dockerfile是面向开发的,我们以后要发布项目,做镜像,就需要编写dockerfile文件 狂神:Docker镜像逐渐成为企业交付的标准,必 阅读全文
posted @ 2023-07-10 22:39 HOUHUILIN 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-07-02 18:16 HOUHUILIN 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 题记部分 一、节点状态监控脚本(nodeStatusCheck.sh) 【脚本名称】nodeStatusCheck.sh 【监控规则】通过ping的方式监控集群节点状态,检查节点是否失联 【实现方式】crontab 【监控频率】*/10 * * * * (每隔十分钟监控一次) #!/bin/bash 阅读全文
posted @ 2023-07-01 00:10 HOUHUILIN 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 差旅注意事项 1、提前确认好差旅的目的地,根据当地近期的天气增减衣物以及确认是否携带便携小风扇或者雨具 2、确认什么时候出发(出发时间),从当前所在城市哪个车站(机场)出发(始发站),确认好几点从住所出门,通过什么交通方式耗费多久抵达出发地,准备好稳妥可行的PlanB。 3、确认差旅的目的(工作内容 阅读全文
posted @ 2023-06-11 23:12 HOUHUILIN 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 可视化编程 转换 步骤(Step) 跳(Hop) 元数据 数据类型 并行 作业 可视化编程 kettle 可以被归类为可视化编程语言(Visula Programming Languages,VPL),因为 Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。 可视化编程一直是 Kettl 阅读全文
posted @ 2023-06-09 22:35 HOUHUILIN 阅读(97) 评论(0) 推荐(0) 编辑
摘要: Kettle下载页面:点这里 Kettle 版本:pdi-ce-9.4.0.0-343 流程概览 详细步骤 1、首先打开Kettle的Spoon.bat 2、在主对象树中选择转换 3、然后在核心对象的输入中找到CSV文件输入并拖拽到右侧的转换1中,在输出中找到Microsoft Excel outp 阅读全文
posted @ 2023-06-09 22:06 HOUHUILIN 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 题记部分 Windows 场景下 1、先使用管理员身份打开两个命令提示符窗口(winA和winB) 2、在命令提示符窗口winA中将MySQL服务停掉net stop mysql Microsoft Windows [版本 10.0.22621.1413] (c) Microsoft Corpora 阅读全文
posted @ 2023-06-09 10:42 HOUHUILIN 阅读(437) 评论(0) 推荐(0) 编辑
摘要: ETL简介 Kettle简介 transformation 和 job的区别 Kettle 的核心组件 Kettle 特点 Kettle 的目录说明 Kettle 的文件说明 ETL简介 ETL,Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程。 市面上常用的ETL工 阅读全文
posted @ 2023-06-07 23:36 HOUHUILIN 阅读(111) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示