10 2022 档案

RDD(弹性分布式数据集)及常用算子

摘要：RDD(弹性分布式数据集)及常用算子 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性：内存与磁盘的自动切换；容阅读全文

posted @ 2022-10-31 15:37 伍点阅读(409) 评论(0) 推荐(0) 编辑

Spark基本知识

摘要：Spark基本知识 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 spark与hadoop的区别 Hadoop Hadoop 是由 java 语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架作为 Hadoop 分布式文件系统，HDFS 处于 Ha 阅读全文

posted @ 2022-10-30 20:55 伍点阅读(163) 评论(0) 推荐(0) 编辑

Spark搭建

摘要：Spark搭建 Standalone模式 1、上传解压 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 2、修改配置文件 # 重命名文件 cp sp 阅读全文

posted @ 2022-10-30 20:26 伍点阅读(79) 评论(0) 推荐(0) 编辑

python的基本运用

摘要：python基础 Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言开发者：Guido van Rossum（人称龟叔）基本概念 1.变量变量名必须是大小写英文字母、数字或下划线 _ 的组合，不能用数字开头，并且对大小写敏感关键字不能用于命名变量，如and、as、ass 阅读全文

posted @ 2022-10-10 20:58 伍点阅读(532) 评论(0) 推荐(0) 编辑

Hbase过滤器

摘要：Hbase过滤器 HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。 HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤器（Filte 阅读全文

posted @ 2022-10-06 16:41 伍点阅读(146) 评论(0) 推荐(0) 编辑

HBase1.4.6安装搭建及shell命令使用

摘要：HBase1.4.6安装搭建一、前期准备（Hadoop,zookeeper,jdk）启动hadoop start-all.sh 验证 http://master:50070 启动zookeeper（三台分别启动） zkServer.sh start 检查状态 zkServer.sh status 阅读全文

posted @ 2022-10-06 16:06 伍点阅读(426) 评论(0) 推荐(0) 编辑

公告

昵称：伍点
园龄： 2年7个月
粉丝： 6
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

bfy0221

10 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜