宝树呐

2023年7月21日

摘要： ![](https://img2023.cnblogs.com/blog/1664266/202307/1664266-20230721092241434-477500858.png) 阅读全文

posted @ 2023-07-21 09:22 宝树呐阅读(69) 评论(0) 推荐(0) 编辑

2022年11月20日

摘要： 1 转换算子(transformer)(将旧的RDD包装成新RDD) 1.1 单值类型 1.1.1 map 多个分区之间是并行的，分区内的数据是串行执行的 def main(args: Array[String]): Unit = { val sparkConfig: SparkConf = new 阅读全文

posted @ 2022-11-20 23:10 宝树呐阅读(15487) 评论(0) 推荐(0) 编辑

spark (五) RDD的创建 & 分区

摘要： 1. RDD的创建方式 1.1 从内存创建RDD 主要依赖如下两个方法 parallelize makeRDD 底层调用的还是parallelize def main(args: Array[String]): Unit = { val sparkConfig: SparkConf = new Sp 阅读全文

posted @ 2022-11-20 16:31 宝树呐阅读(284) 评论(0) 推荐(0) 编辑

2022年11月14日

spark (四) RDD概念

摘要： 1. RDD基本概念 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是Spark中最基本的==数据处理模型==。代码中是一个抽象类，它代表了一个弹性的、不可变的、可分区、里面的元素可并行计算的集合。 1.1 弹性存储的弹性：内存和磁盘的自动切换因为内存阅读全文

posted @ 2022-11-14 22:30 宝树呐阅读(117) 评论(0) 推荐(0) 编辑

spark (三) hadoop上传文件并运行spark

摘要： 1. 上传文件到hdfs # 前提挂载了 -v ~/bilibili/input_files:/input_files # hdfs创建input文件夹 docker exec namenode hdfs dfs -mkdir /input # 将容器内input_files文件夹下的1.txt上传阅读全文

posted @ 2022-11-14 22:28 宝树呐阅读(395) 评论(0) 推荐(0) 编辑

spark (二) spark wordCount示例

摘要：实现思路实现1: scala 基本集合操作方式获取结果 package com.lzw.bigdata.spark.core.wordcount import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkCon 阅读全文

posted @ 2022-11-14 22:27 宝树呐阅读(105) 评论(0) 推荐(0) 编辑

spark (一) 入门 & 安装

摘要：基本概念 spark主要是计算框架 spark 核心模块 spark core (核心) spark core 提供了最基础最核心的功能，其他的功能比如 spark sql, spark streaming, graphx, MLlib 都是在此基础上扩展的 spark sql (结构化数据操作) 阅读全文

posted @ 2022-11-14 22:25 宝树呐阅读(199) 评论(0) 推荐(0) 编辑

2022年4月10日

docker安装elastic search和kibana

摘要：安装目标使用docker安装elastic search和kibana，版本均为7.17.1 安装es 1. docker pull 去dockerhub看具体版本，这里用7.17.1 docker pull elasticsearch:7.17.1 docker pull kibana:7.17 阅读全文

posted @ 2022-04-10 23:18 宝树呐阅读(12818) 评论(6) 推荐(6) 编辑

2022年3月8日

golang两个协程交替打印出1-100

摘要：基于channel实现的，两个协程交替打印出1-100 package main import ( "fmt" "sync" ) var ( toOdd = make(chan struct{}) toEven = make(chan struct{}) wg = sync.WaitGroup{} 阅读全文

posted @ 2022-03-08 17:14 宝树呐阅读(955) 评论(0) 推荐(0) 编辑

2021年5月21日

LRU的map+双链表实现(Go描述)

摘要：面云账户时候问了LRU，具体实现的方式是map+双链表。Set和Get的时间复杂度都是O(1)。完整写一遍复习一下, 仅作记录 /** * @Author: lzw5399 * @Date: 2021/5/20 22:28 * @Desc: 基于map和双链表实现的LRU算法 */ package 阅读全文

posted @ 2021-05-21 16:26 宝树呐阅读(211) 评论(0) 推荐(1) 编辑

公告