10 2022 档案
摘要:RDD(弹性分布式数据集)及常用算子 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。 弹性 存储的弹性:内存与磁盘的自动切换; 容
阅读全文
摘要:Spark基本知识 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 spark与hadoop的区别 Hadoop Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式 分析应用的开源框架 作为 Hadoop 分布式文件系统,HDFS 处于 Ha
阅读全文
摘要:Spark搭建 Standalone模式 1、上传解压 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 2、修改配置文件 # 重命名文件 cp sp
阅读全文
摘要:python基础 Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言 开发者:Guido van Rossum(人称龟叔) 基本概念 1.变量 变量名必须是大小写英文字母、数字或下划线 _ 的组合,不能用数字开头,并且对 大小写敏感 关键字不能用于命名变量,如and、as、ass
阅读全文
摘要:Hbase过滤器 HBase 的基本 API,包括增、删、改、查等。 增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。 HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤器(Filte
阅读全文
摘要:HBase1.4.6安装搭建 一、前期准备(Hadoop,zookeeper,jdk) 启动hadoop start-all.sh 验证 http://master:50070 启动zookeeper(三台分别启动) zkServer.sh start 检查状态 zkServer.sh status
阅读全文