2022 年 2月随笔档案 - xingmeng1

HashMap底层实现原理

摘要：基础概念数组：采用一段连续的存储单元来存储数据。对于指定下标的查找，时间复杂度O(1)，通过给定值进行查找，需要遍历数组，逐一比对给定关键字和数组元素，时间复杂度O(n)。线性链表：对于链表的新增，删除等操作（在找到指定操作位置后），仅需处理节点间的引用即可，时间复杂度为O(1)，而查找操作需要阅读全文

posted @ 2022-02-04 15:53 xingmeng1 阅读(98) 评论(0) 推荐(0) 编辑

SparkStreaming中的例子OutDemo1

摘要：SparkStreaming中的数据插入jdbc object OutDemo1 { val props = new Properties() props.setProperty("user","root") props.setProperty("password","123456") // pro 阅读全文

posted @ 2022-02-03 21:51 xingmeng1 编辑

Linux 基础

摘要：su - root //登入账号su - mk //切换到普通用户exit //退出q+!=不保存退出；wq=保存退出 init 0关机临时修改网卡的ip地址，重启失效ens33 overruns#ifconfig ens33+网卡名。重启服务 #systemctl restart network 阅读全文

posted @ 2022-02-02 20:50 xingmeng1 阅读(38) 评论(0) 推荐(0) 编辑

ssh免密登入

摘要：ssh免密登入切换root用户 su root ① vim /etc/sudoers ②三台ip地址 ③ssh-keygen -t rsa 一直回车 ④ssh-copy-id hadoop103 从102 copy 到 103上面阅读全文

posted @ 2022-02-02 20:44 xingmeng1 阅读(28) 评论(0) 推荐(0) 编辑

java中在json字符串后面添加时间戳

摘要：java中在json字符串后面添加时间戳 JSONObject obj = JSON.parseObject(log); obj.put("ts",System.currentTimeMillis()); 阅读全文

posted @ 2022-02-02 20:40 xingmeng1 阅读(195) 评论(0) 推荐(0) 编辑

Spark Streaming 概述

摘要：1.1 Spark Streaming是什么 Spark Streaming 是 Spark 核心 API 的扩展, 用于构建弹性, 高吞吐量, 容错的在线数据流的流式处理程序. 总之一句话: Spark Streaming 用于流式数据的处理数据可以来源于多种数据源: Kafka, Flume, 阅读全文

posted @ 2022-02-02 17:31 xingmeng1 阅读(163) 评论(0) 推荐(0) 编辑

SparkSQL 访问 hive

摘要：1.1 从 hive读数据 object HiveRead { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[*]") .appName("HiveRead") .e 阅读全文

posted @ 2022-02-02 17:27 xingmeng1 阅读(160) 评论(0) 推荐(0) 编辑

SparkSQL 访问 Mysql

摘要：1.1 从 jdbc 读数据 object JDBCRead { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[*]") .appName("JDBCRead") . 阅读全文

posted @ 2022-02-02 17:22 xingmeng1 阅读(111) 评论(0) 推荐(0) 编辑

SparkSQL 的创建 DataFrame 和 DataSet，和 rdd 的联系

摘要：1.1 创建 DataFrame With a SparkSession, applications can create DataFrames from an existing RDD, from a Hive table, or from Spark data sources. 有了 Spark 阅读全文

posted @ 2022-02-02 11:41 xingmeng1 阅读(88) 评论(0) 推荐(0) 编辑

SparkCore 对共享变量也提供了两种支持：1. 累加器 2. 广播变量

摘要：正常情况下, 传递给 Spark 算子(比如: map, reduce 等)的函数都是在远程的集群节点上执行, 函数中用到的所有变量都是独立的拷贝. 这些变量被拷贝到集群上的每个节点上, 都这些变量的更改不会传递回驱动程序. 支持跨 task 之间共享变量通常是低效的, 但是 Spark 对共享变量阅读全文

posted @ 2022-02-02 10:59 xingmeng1 阅读(43) 评论(0) 推荐(0) 编辑

SparkCore文件中数据的读取和保存

摘要：从文件中读取数据是创建 RDD 的一种方式. 把数据保存的文件中的操作是一种 Action. Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、阅读全文

posted @ 2022-02-01 23:06 xingmeng1 阅读(124) 评论(0) 推荐(0) 编辑

SparkCore中的Key-Value 类型 RDD 的数据分区器

摘要：1.1 HashPartitioner HashPartitioner分区的原理：对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于 0，则用余数+分区的个数（否则加0），最后返回的值就是这个key所属的分区ID。 1.2 RangePartitioner HashPart 阅读全文

posted @ 2022-02-01 22:39 xingmeng1 编辑

asdas

摘要：dasd 阅读全文

posted @ 2022-02-01 21:51 xingmeng1 阅读(32) 评论(0) 推荐(0) 编辑

Spark Core简介

摘要：第 1 章 RDD 概述 1.1 什么是 RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。 1.2 RDD 的 5 个主要属性(property) • A list of partitions 多个分区. 分区可以看成阅读全文

posted @ 2022-02-01 21:49 xingmeng1 编辑

xingmeng1

02 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

最新评论