随笔分类 -  大数据相关学习

Linux相关学习(vmware安装)
摘要:Linux系统 一切皆文件 (模板机:1. 配置IP地址;2. 关闭防火墙、selinux安全加载机制) 一、配置IP地址 cd /etc/sysconfig/network-scripts/ ls ifcfg-eth0文件解析(网卡配置文件): if:interface 接口 cfg:config 阅读全文

posted @ 2023-10-04 15:20 saihao 阅读(72) 评论(0) 推荐(0) 编辑

StarRocks学习笔记
摘要:起源 Doris 最早是解决百度凤巢统计报表的专用系统,随着百度业务的飞速发展对系统进行了多次迭代,逐渐承担起百度内部业务的统计报表和多维分析需求。2013 年,我们把 Doris 进行了 MPP 框架的升级,并将新系统命名为 Palo ,2017 年我们以百度 Palo 的名字在 GitHub 上 阅读全文

posted @ 2023-09-11 16:28 saihao 阅读(76) 评论(0) 推荐(0) 编辑

数据仓库模型之IBM与TD金融模型
摘要:注:参考链接: https://www.cnblogs.com/oracle-dba/p/3903442.html?utm_source=tuicool https://blog.csdn.net/guofeng_0/article/details/108140978 ### 一、IBM与Terad 阅读全文

posted @ 2023-08-28 15:49 saihao 阅读(793) 评论(0) 推荐(0) 编辑

Kafka学习总结
摘要:一、为什么要使用Kafka 如果直接使用flink进行元数据接收、数据处理、元数据及处理后数据存储的整个过程,压力较大,且耦合性较高,故障修复需要将整个过程一起修复,故为了降低flink计算压力,降低元数据与计算过程之间的耦合度,考虑使用kafka组件与flink结合使用。 未经过ETL的数据大多较 阅读全文

posted @ 2023-05-11 15:32 saihao 阅读(45) 评论(0) 推荐(0) 编辑

Flink ML学习笔记
摘要:概念 Flink ML是一个机器学习算法库。用户可以使用标准机器学习API或者自定义机器学习算法来进行离线或在线的模型训练和预测服务。 一、环境准备 安装1.15及以上版本的flink到本地环境 导入flink table api相关依赖 二、开发中的基本概念 1、Table API Flink M 阅读全文

posted @ 2023-05-11 10:27 saihao 阅读(754) 评论(0) 推荐(0) 编辑

MongoDB常用语法
摘要:查询 db.getCollection("collection").find({}) 排序 正序 db.getCollection("collection").find({}).sort({字段:-1}) 倒序 db.getCollection("collection").find({}).sort 阅读全文

posted @ 2023-05-06 10:36 saihao 阅读(25) 评论(0) 推荐(0) 编辑

大数据面试题
摘要:注:所有答案来源于网络,仅做整理!! ## Flink的高可用 Flink是一种高性能、分布式处理大规模数据的流处理框架,其主要特点是具有高可用性和可扩展性。Flink集群高可用性是指在出现故障的情况下,系统能够自动切换到备用节点,保证系统的稳定性和可靠性。 Flink集群高可用原理主要涉及以下几个 阅读全文

posted @ 2023-04-25 17:45 saihao 阅读(59) 评论(0) 推荐(0) 编辑

Docker学习(四)
摘要:容器卷 记得加入参数:--privileged=true Docker挂载主机目录访问如果出现cannot open directory.:Permission denied 解决办法:在挂载目录后多加一个--privileged=true参数即可。 如果是CentOS7安全模块回避之前系统版本加强 阅读全文

posted @ 2022-10-11 16:05 saihao 阅读(39) 评论(0) 推荐(0) 编辑

Docker学习(三)Docker镜像
摘要:镜像的概念 是一种轻量级、可执行的独立软件包,它包含运行某个软件所需的所有内容。我们把应用程序和配置依赖打包好行程一个可交付的运行环境,这个打包好的运行环境就是image镜像文件。 只有通过这个镜像文件才能生成Docker容器实例(类似Java中new出来一个对象)。 镜像的分层概念 通过Union 阅读全文

posted @ 2022-10-11 10:51 saihao 阅读(88) 评论(0) 推荐(0) 编辑

Docker学习(二)常用命令
摘要:一、帮助启动类命令 启动docker:systemctl start docker 停止docker:systemctl stop docker 重启docker:systemctl restart docker 查看docker状态:systemctl status docker 开机启动:sys 阅读全文

posted @ 2022-10-10 11:38 saihao 阅读(38) 评论(0) 推荐(0) 编辑

Docker学习(一)基础知识
摘要:Docker容器 解决了开发环境和运维环境配置不同的问题,对此给出了一个标准化的解决方案——系统平滑移植,容易虚拟化技术。实现跨屏题啊的无缝接轨,“一次镜像,处处运行”。Docker是基于Go语言实现的云开源项目。在Linux容器技术的基础上发展而来。将应用打成镜像,通过镜像成为运行在Docker容 阅读全文

posted @ 2022-10-09 11:21 saihao 阅读(37) 评论(0) 推荐(0) 编辑

HBase学习
摘要:三范式 第一范式 属性不可分割。 第二范式 不存在部分函数依赖,减少数据的冗余。 第三范式 不存在传递函数依赖,减少数据的冗余,保证数据一致性。 事实表和维度表 维度 观察数据的角度,如用户,省份,商品等。 粒度 值的是特定的维度组合,如各个省份中各个SPU的GMV。 粒度越细,维度越多。最细粒度( 阅读全文

posted @ 2022-08-30 18:05 saihao 阅读(39) 评论(0) 推荐(0) 编辑

Kafka3.0.0版学习笔记
摘要:定义 传统定义 kafka是一个分布式的基于发布/定于模式的消息队列,主要应用于大数据实时处理领域。 发布/订阅 消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类型,订阅者只接受感兴趣的消息。 最新定义 kafka是一个开源的分布式事件流平台,被数千家公司用于高性能数据管道 阅读全文

posted @ 2022-08-30 17:34 saihao 阅读(261) 评论(0) 推荐(0) 编辑

交换机、网卡、局域网、IDC数据中心、 磁盘阵列相关
摘要:交换机 交换机是一种存储转发设备。以太网交换机采用存储转发(store-forward)技术活直通(cus-through)技术来实现信息帧的转发,也成为了交换式集线器。交换机和网桥的不同在于:交换机端口数较多,数据传输效率高,转发延迟小,吞吐量大,丢失率低,网络整体性能增强,远远超过了普通网桥连接 阅读全文

posted @ 2022-08-30 14:30 saihao 阅读(292) 评论(0) 推荐(0) 编辑

存储磁盘基本介绍
摘要:磁盘就是一类存储介质,组成有接口和磁盘(盘片)。 SCSI接口硬盘(机械硬盘) 转速为10kr、15kr,用的是SCSI接口,受其阵列卡和转速协议限制,有固定插法,现已停止发售,常见转速为:10000转/分,3.5寸。 SAS接口硬盘(机械硬盘) 基于SAS接口,SAS是SCSI的优化版,分为两种协 阅读全文

posted @ 2022-08-30 13:55 saihao 阅读(394) 评论(0) 推荐(0) 编辑

服务器的基本介绍
摘要:服务器,也成为了伺服器,是提供计算服务的设备,由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。 在网络环境下,根据服务器提供的服务类型不同,分为文件服务器、数据库服务器、WEB服务器等。 服务器的构成包括处理器、银盘、内存、系统总线等。和通用的计算机架构类 阅读全文

posted @ 2022-08-30 11:36 saihao 阅读(222) 评论(0) 推荐(0) 编辑

大数据基础知识
摘要:基本单位 Bit 位 Byte 字节 KB 千字节 还有 MB、GB、TB、PB、EB、YB、BB、NB、DB 单位转化 1 Byte = 8 Bit 1 KB = 1024 Byte 1 GB = 1024 KB 1 TB = 1024 GB(TB已经是很大量级的数据量了) 1 PB = 1024 阅读全文

posted @ 2022-08-30 10:56 saihao 阅读(332) 评论(0) 推荐(0) 编辑

LRU 算法策略
摘要:就是一种缓存淘汰策略。 计算机的缓存容量有限,如果缓存满了就要删除一些内容,给新内容腾位置。但问题是,删除哪些内容呢?我们肯定希望删掉哪些没什么用的缓存,而把有用的数据继续留在缓存里,方便之后继续使用。那么,什么样的数据,我们判定为「有用的」的数据呢? LRU 缓存淘汰算法就是一种常用策略。LRU 阅读全文

posted @ 2022-01-24 14:31 saihao 阅读(59) 评论(0) 推荐(0) 编辑

flink学习(一)概述
摘要:Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been design 阅读全文

posted @ 2022-01-19 16:00 saihao 阅读(69) 评论(0) 推荐(0) 编辑

kettle学习笔记
摘要:一、简介: 由纯Java编写,可在Windows、Linux、Unix环境运行,纯绿色无需安装的一款ETL工具。 补充: 企业数据仓库模型: 一、数据来源: 1、历史数据; 2、正在运行的业务系统数据,例如:OA、CRM 3、日志、三方数据等其他来源的数据。 二、ETL进入数据库: ETL(Extr 阅读全文

posted @ 2021-11-02 23:11 saihao 阅读(70) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示