+1000 - 博客园

2022年7月20日

摘要： Spark API 创建spark环境方法一：SparkConf //spark环境配置对象 val conf = new SparkConf() //设置spark任务的名称 conf.setAppName("Demo1WordCount") //设置spark运行模式，local:本地运行 c 阅读全文

posted @ 2022-07-20 11:12 +1000 阅读(417) 评论(0) 推荐(0)

2022年7月13日

Spark WordCount

摘要： WordCount基本流程和spark实现 ####基本流程 1.创建spark环境 2.创建创建spark上下文对象，也就是spark写代码的入口 3.读取文件中的数据 4.首先将每一行数据展开，让每一个word单独一行 5.将word进行分组 6.对word出现的次数分别统计 7.将结果保存在新阅读全文

posted @ 2022-07-13 20:16 +1000 阅读(66) 评论(0) 推荐(0)

spark RDD

摘要：什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集 RDD是Spark中的抽象数据结构类型,Spark中最基本的数据抽象,实现了以操作本地集合的方式来操作分布式数据集的抽象实现，它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数阅读全文

posted @ 2022-07-13 20:02 +1000 阅读(64) 评论(0) 推荐(0)

Spark 算子

摘要： Spark的算子的分类从大方向来说，Spark 算子大致可以分为以下两类: Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有阅读全文

posted @ 2022-07-13 19:50 +1000 阅读(123) 评论(0) 推荐(0)

2022年7月11日

spark与MapReduce的区别

摘要： spark与MapReduce的区别内存和磁盘的区别 spark最核心的概念是RDD（弹性分布式数据集），它的所有RDD在并行运算过程程中，可以做到数据共享，也就是可以重复使用mr在计算过程中 mapr：一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中，在计算过阅读全文

posted @ 2022-07-11 21:57 +1000 阅读(1403) 评论(0) 推荐(0)

2022年7月10日

flume-day03 案例

摘要：使用案例在使用之前，提供一个大致思想，使用Flume的过程是确定scource类型，channel类型和sink类型，编写conf文件并开启服务，在数据捕获端进行传入数据流入到目的地。案例一、从控制台打入数据，在控制台显示 1、确定scource类型，channel类型和sink类型确定的使用阅读全文

posted @ 2022-07-10 21:05 +1000 阅读(40) 评论(0) 推荐(0)

flume-day02 flume安装

摘要： Flume的安装(解压即安装) 1、上传至虚拟机，并解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/ 在环境变量中增加如下命令，可以使用 soft 快速切换到 /usr/local/soft alias soft='cd / 阅读全文

posted @ 2022-07-10 20:57 +1000 阅读(35) 评论(0) 推荐(0)

flume-day01 flume基本介绍

摘要： Flume架构 1.1 Hadoop业务开发流程 1.2 Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据; 同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能阅读全文

posted @ 2022-07-10 20:56 +1000 阅读(159) 评论(0) 推荐(0)

HBase-day10 rowkey设计

摘要： HBase中rowkey的设计（重点！！） HBase的RowKey设计 HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowk 阅读全文

posted @ 2022-07-10 19:45 +1000 阅读(47) 评论(0) 推荐(0)

HBase-day09 HBase与Hive的集成

摘要： HBase与Hive的集成 HBase与Hive的对比 hive: 数据仓库：Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hiv 阅读全文

posted @ 2022-07-10 19:44 +1000 阅读(39) 评论(0) 推荐(0)