随笔分类 -  拉勾训练营

摘要:集群 standalone 安装部署 下载安装包 下载页面:https://archive.apache.org/dist/flink/flink-1.7.2/ 我这里安装的 flink-1.7.2-bin-hadoop27-scala_2.11.tgz 版本。 修改配置文件 conf/flink- 阅读全文
posted @ 2022-10-31 23:08 女友在高考 阅读(387) 评论(0) 推荐(0) 编辑
摘要:Flink的重要角色 Flink是非常经典的Master/Slave结构实现,JobManager是Master,TaskManager是Slave。 JobManager处理器(Master) 协调分布式执行,它们用来调度task,协调检查点(CheckPoint),协调失败时恢复等 Flink运 阅读全文
posted @ 2022-10-19 09:20 女友在高考 阅读(274) 评论(0) 推荐(0) 编辑
摘要:下面通过一个单词统计的案例,快速上手应用 Flink,进行流处理(Streaming)和批处理(Batch) 单词统计(批处理) 引入依赖 <!--flink核心包--> <dependency> <groupId>org.apache.flink</groupId> <artifactId>fli 阅读全文
posted @ 2022-10-18 16:22 女友在高考 阅读(208) 评论(0) 推荐(0) 编辑
摘要:Flink 概述 什么是 Flink Apache Apache Flink 是一个开源的流处理框架,应用于分布式、高性能、高可用的数据流应用程序。可以处理有限数据流和无限数据,即能够处理有边界和无边界的数据流。无边界的数据流就是真正意义上的流数据,所以 Flink 是支持流计算的。有边界的数据流就 阅读全文
posted @ 2022-09-18 11:24 女友在高考 阅读(481) 评论(0) 推荐(0) 编辑
摘要:HBase API 应用 引入依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.3.1</version> </dependency> HBase 阅读全文
posted @ 2022-09-13 20:45 女友在高考 阅读(50) 评论(0) 推荐(0) 编辑
摘要:HBase 读写数据流程 Hbase 读数据流程 首先从 zk 找到 meta 表的 region 位置,然后读取 meta 表中的数据,meta 表中存储了用户表的 region 信息 根据要查询的 namespace、表名和 rowkey 信息,找到写入数据对应的 region 信息 找到这个 阅读全文
posted @ 2022-09-11 11:21 女友在高考 阅读(317) 评论(0) 推荐(1) 编辑
摘要:HBase 集群部署 安装 hbase 之前需要先搭建好 hadoop 集群和 zookeeper 集群。hadoop 集群搭建可以参考:https://www.cnblogs.com/javammc/p/16545146.html 下载安装包 http://archive.apache.org/d 阅读全文
posted @ 2022-09-04 16:06 女友在高考 阅读(183) 评论(0) 推荐(0) 编辑
摘要:HBase简介 HBase基于Google的BigTable论文而来,是一个分布式海量列式非关系型数据库系统,可以提供大规模数据集的实时随机读写。 下面通过一个小场景认识HBase存储。同样的一个数据 用Mysql存储是这样的: id | name | age| salary |job | | | 阅读全文
posted @ 2022-09-03 10:49 女友在高考 阅读(427) 评论(0) 推荐(0) 编辑
摘要:Yarn 架构 ResourceManager: 处理客户端请求、启动/监控 ApplicationMaster、监控 NodeManager、资源分配和调度 NodeManager:单个节点上的资源管理,处理来自 ResourceManager 的命令、处理来自 ApplicationMaster 阅读全文
posted @ 2022-08-31 22:59 女友在高考 阅读(72) 评论(0) 推荐(0) 编辑
摘要:MapReduce 中的排序 MapTask 和 ReduceTask 都会对数据按key进行排序。该操作是 Hadoop 的默认行为,任何应用程序不管需不需要都会被排序。默认排序是字典顺序排序,排序方法是快速排序 下面介绍排序过程: MapTask 它会将处理的结果暂时放到环形缓冲区中,当环形缓冲 阅读全文
posted @ 2022-08-23 22:40 女友在高考 阅读(416) 评论(0) 推荐(0) 编辑
摘要:MapTask 运行机制详解 MapTask 流程 详细步骤: 读取数据的组件 InputFormat 会通过 getSplits 方法对输入目录中文件进行逻辑切片规划得到 splits,有多少 split 就对应启动多少个 MapTask。split 与 block 的对应关系默认是一对一。 将输 阅读全文
posted @ 2022-08-20 10:42 女友在高考 阅读(86) 评论(0) 推荐(0) 编辑
摘要:MapReduce 思想 MapReduce 是 Google 提出的一个软件架构,用于大规模数据集的并行运算。概率“Map(映射)”和“Reduce(归约)”以及它们的思想都是从函数式编程语言借鉴的,还有从矢量编程语言借来的特性。 当前的软件实现是指定一个“Map”函数,用来把一组键值对映射成一组 阅读全文
posted @ 2022-08-14 11:22 女友在高考 阅读(453) 评论(0) 推荐(0) 编辑
摘要:HDFS 读写解析 HDFS 读数据流程 客户端通过 FileSystem 向 NameNode 发起请求下载文件,NameNode 通过查询元数据找到文件所在的 DataNode 地址 挑选一台 DataNode(就近原则)服务器,发送读取数据请求 DataNode 开始传输数据给客户端 客户端以 阅读全文
posted @ 2022-08-08 13:35 女友在高考 阅读(572) 评论(5) 推荐(1) 编辑
摘要:Apache Hadoop 分布式集群搭建 基础环境准备 三台 linux 节点,操作系统(Centos7) 关闭防火墙 systemctl stop firewalld 开机时禁用防火墙 systemctl disable firewalld 修改主机名 vi /etc/hosts 192.168 阅读全文
posted @ 2022-08-02 20:56 女友在高考 阅读(674) 评论(0) 推荐(0) 编辑
摘要:Hadoop 简介 什么是 Hadoop Hadoop 是一个适合大数据的分布式存储和计算平台。 狭义上来说 Hadoop 就是一个框架平台,广义上讲 Hadoop 代表大数据的一个技术生态圈,包括很多其他软件框架。 Hadoop 生态圈技术栈: | Hadoop 技术栈 | | | | Hadoo 阅读全文
posted @ 2022-07-30 08:32 女友在高考 阅读(221) 评论(0) 推荐(0) 编辑
摘要:CQL函数 1. 字符串函数 功能 | 描述 | UPPER | 将所有字母改为大写 LOWER | 将所有字母改为小写 SUBSTRING | 将获取指定范围的子字符串 REPLACE | 替换一个字符串的子字符串 match (p:Person) return ID(p),LOWER(p.cha 阅读全文
posted @ 2022-07-23 21:38 女友在高考 阅读(264) 评论(0) 推荐(0) 编辑
摘要:Neo4j基础 在学习Neo4j之前,我们先了解下什么是图数据库。 图数据库 图形数据库存储节点和关系而不是表或文档。数据的存储就像您在白板上勾画想法一样。您的数据在存储时不限于预定义的模型,允许以非常灵活的方式思考和使用它。 为什么需要图数据库? 我们生活在一个互联的世界中,理解大多数领域需要处理 阅读全文
posted @ 2022-07-21 13:48 女友在高考 阅读(980) 评论(0) 推荐(0) 编辑
摘要:MongoDB应用实战 MongoDB的适用场景 网站数据:Mongo非常适合实时的插入、更新和查询,并具备网站实时数据存储所需的复制及高度伸缩性 缓存:由于性能很高,Mongo也适合作为信息基础设施的缓存层。在系统重启之后,由Mongo搭建的持久化缓存层可以避免下层的数据源过载 大尺寸、低价值的数 阅读全文
posted @ 2022-07-17 10:04 女友在高考 阅读(235) 评论(0) 推荐(0) 编辑
摘要:MongoDB慢查询 慢查询分析 开启内置的慢查询分析器 db.setProfilingLevel(n,m),n的取值可选0,1,2 0:表示不记录 1:表示记录慢速操作,如果值为1,m需要传慢查询的阈值,单位为ms 2:表示记录所有的读写操作 示例: db.setProfilingLevel(1, 阅读全文
posted @ 2022-07-16 09:33 女友在高考 阅读(572) 评论(0) 推荐(0) 编辑
摘要:MongoDB简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格 阅读全文
posted @ 2022-07-12 21:17 女友在高考 阅读(268) 评论(0) 推荐(0) 编辑