08 2024 档案

摘要:4、集合(接着上次的集合继续学习) 4.4可变集合 1、ListBuffer val listBuffer1: ListBuffer[Int] = new ListBuffer[Int] println(s"$listBuffer1") listBuffer1.+=(11) listBuffer1. 阅读全文
posted @ 2024-08-23 21:22 shmil 阅读(23) 评论(1) 推荐(1) 编辑
摘要:2.12 scala中的函数式编程 * scala中的函数式编程 * * 面向对象编程:将对象当作参数一样传来传去 * 1、对象可以当作方法参数传递 * 2、对象也可以当作方法的返回值返回 * 当看到类,抽象类,接口的时候,今后无论是参数类型还是返回值类型,都需要提供对应的实现类对象 * * 面向函 阅读全文
posted @ 2024-08-21 16:38 shmil 阅读(18) 评论(0) 推荐(0) 编辑
摘要:Scala 1、Scala简介 1.1Scala的介绍 scala是一门多范式的编程语言 Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言 大数据计算引擎spark是由Scala编写的 1.2Scala的特性 1.2.1多范式 1.2.1.1面向对象特性 Scala 是一种高度表达性 阅读全文
posted @ 2024-08-20 22:37 shmil 阅读(28) 评论(0) 推荐(0) 编辑
摘要:Hbase之过滤器 HBase 的基本 API,包括增、删、改、查等。 增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。 HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤器(Filt 阅读全文
posted @ 2024-08-19 15:30 shmil 阅读(82) 评论(0) 推荐(0) 编辑
摘要:六、Phoenix 3、phoenix表映射 默认情况下,直接在hbase中创建的表,通过phoenix是查看不到的 如果需要在phoenix中操作直接在hbase中创建的表,则需要在phoenix中进行表的映射。映射方式有两种:视图映射和表映射 3.1、视图映射 Phoenix创建的视图是只读的, 阅读全文
posted @ 2024-08-18 22:51 shmil 阅读(44) 评论(1) 推荐(1) 编辑
摘要:HBase进阶下 一、HBase的读写流程 1.1 HBase读流程 Hbase读取数据的流程: 1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接 2)从zookeeper中获取一个hbase:meta表位置信息,被哪一个regionserver所管理着 hbase:meta表: 阅读全文
posted @ 2024-08-17 11:30 shmil 阅读(20) 评论(0) 推荐(0) 编辑
摘要:HBase进阶与API 一、Hbase shell 1、Region信息观察 创建表指定命名空间 在创建表的时候可以选择创建到bigdata17这个namespace中,如何实现呢? 使用这种格式即可:‘命名空间名称:表名’ 针对default这个命名空间,在使用的时候可以省略不写 create ' 阅读全文
posted @ 2024-08-16 23:15 shmil 阅读(28) 评论(0) 推荐(0) 编辑
摘要:5.4 namespace hbase中没有数据库的概念 , 可以使用namespace来达到数据库分类别管理表的作用 5.4.1 列举命名空间 list_namespace 5.4.2 获取命名空间描述 describe_namespace describe_namespace 'default' 阅读全文
posted @ 2024-08-14 22:30 shmil 阅读(28) 评论(1) 推荐(1) 编辑
摘要:接着昨天的简单了解继续学习 五、hbase shell 命名 描述 语法 help ‘命名名’ 查看命令的使用描述 help ‘命令名’ whoami 我是谁 whoami version 返回hbase版本信息 version status 返回hbase集群的状态信息 status table_ 阅读全文
posted @ 2024-08-13 15:38 shmil 阅读(21) 评论(1) 推荐(1) 编辑
摘要:HBase架构与基础命令 一、了解HBase 1.1 HBase概述 HBase是基于Hadoop中HDFS做存储的数据库 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的) HBase是Hadoop的生态系 阅读全文
posted @ 2024-08-12 19:25 shmil 阅读(42) 评论(1) 推荐(1) 编辑
摘要:MapReduce提交过程 在Xshell中输入bash -X命令可以在Bash shell中启用debug模式,显示执行过程中的详细信息,例如每条命令的执行结果以及执行的步骤。 Hadoop提交执行 开始使用Java命令执行 java org.apache.hadoop.util.RunJar h 阅读全文
posted @ 2024-08-10 17:26 shmil 阅读(38) 评论(0) 推荐(0) 编辑
摘要:1、MapReduce序列化(接着昨天的知识继续学习) 序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间,对象将其当前状态写入到临时或持久性存储区。以后,可以通过从存储区中读取或反序列化对象的状态,重新创建该对象。 当两个进程在进行远程通信时,彼此 阅读全文
posted @ 2024-08-09 15:30 shmil 阅读(21) 评论(1) 推荐(1) 编辑
摘要:1、MapReduce概述及原理 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段 阅读全文
posted @ 2024-08-08 15:31 shmil 阅读(15) 评论(1) 推荐(1) 编辑
摘要:Hadoop三大组件的介绍 1、yarn架构分析 yarn:资源的调度和管理平台。 主从结构 主节点,可以有2个:ResourceManager 从节点,有很多个: NodeManager ResourceManager负责 集群资源的分配与调度 MapReduce、Storm、Spark等应用,必 阅读全文
posted @ 2024-08-07 16:10 shmil 阅读(28) 评论(1) 推荐(1) 编辑
摘要:首先我们来了解一下大数据 什么是大数据? 高速:指数据产生的速度非常快,对于用户的使用记录等日志信息,产生的速度会非常快,那么对这部分数据做数据采集分析,要求速度也非常快 所以需要应用分布式处理技术,而大数据所学习的都是分布式处理应用,该应用可以在多个服务器中进行使用,并获取其计算资源,帮助我们完成 阅读全文
posted @ 2024-08-06 15:20 shmil 阅读(76) 评论(1) 推荐(1) 编辑
摘要:数据中台 1、数据中台的概念 数据中台是一种集中化的数据管理平台,用于整合和管理企业内部各个业务系统的数据。 它将数据从各个业务系统中抽取、清洗和集成,然后提供给其他业务系统或者数据应用进行分析、决策和创新。 数据中台的目标是实现数据的一致性、可信度和可用性,促进数据的共享和交流。 数据中台通常采用 阅读全文
posted @ 2024-08-03 15:12 shmil 阅读(221) 评论(1) 推荐(1) 编辑
摘要:Hive自定义函数UserDefineFunction 主要分为三大类: ​ UDF:一对一 ​ UDTF:一对多 ​ UDAF:多对一 注意:1、区分的条件只要看前后输入输出之后的行数的变化 ​ 2、UDF可以连续嵌套调用,类似于if语句 UDF:一进一出 定义UDF函数要注意下面几点: 继承or 阅读全文
posted @ 2024-08-02 15:24 shmil 阅读(16) 评论(1) 推荐(1) 编辑
摘要:1.1 Hive窗口函数 普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。 简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以是排序值。 开窗函数一般就是说的是over()函数,其窗口是由一个 OVER 子句 定义的多行记录 开窗函数一般分为 阅读全文
posted @ 2024-08-01 23:39 shmil 阅读(23) 评论(1) 推荐(1) 编辑

点击右上角即可分享
微信分享提示