摘要: 数据库高级部分 1、编码mysql 1.1、查看mysql编码 mysql> show variables like 'character%';+ + +| Variable_name | Value |+ + +| character_set_client | utf8 || character_ 阅读全文
posted @ 2021-06-04 10:10 每天都要进步啊 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 1、数据库介绍篇 1.1什么是数据库 数据库:保存数据的仓库。它体现我们电脑中,就是一个文件系统。然后把数据都保存这些特殊的文件中,并且需要使用固定的语言(SQL语言)去操作文件中的数据。 技术定义: 数据库(Database)是按照数据结构来组织、[存储和管理数据的建立在计算机存储设备上的仓库。 阅读全文
posted @ 2021-06-04 10:06 每天都要进步啊 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 1/ HIVE是什么?HIVE是一个可以将sql翻译为MR程序的工具HIVE支持用户将HDFS上的文件映射为表结构,然后用户就可以输入SQL对这些表(HDFS上的文件)进行查询分析HIVE将用户定义的库、表结构等信息存储hive的元数据库(可以是本地derby,也可以是远程mysql)中 2/ HI 阅读全文
posted @ 2021-05-31 14:40 每天都要进步啊 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://www.cnblogs.com/jmcui/archive/2020/12/10/14117113.html#_label1 好好学习数据结构吧,毕业也几年了,很多东西都稀里糊涂,不能再这样下去了。 突然想起来了高中物理老师的一句话,做了十道题,不如弄懂一道题。 01. 前言 阅读全文
posted @ 2021-05-31 09:43 每天都要进步啊 阅读(1141) 评论(0) 推荐(0) 编辑
摘要: SparkSQL是Spark上的高级模块,SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行 SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据) SparkSQL支持两种编程API 1.SQL方式 2.Data 阅读全文
posted @ 2021-05-29 15:40 每天都要进步啊 阅读(429) 评论(0) 推荐(0) 编辑
摘要: package cn.edu360 import java.io.{FileInputStream, FileOutputStream, ObjectInputStream, ObjectOutputStream} /** * Created by zx on 2017/6/25. */class 阅读全文
posted @ 2021-05-29 15:00 每天都要进步啊 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 本文转自:https://www.cnblogs.com/chhyan-dream/p/12013463.html 1、概述 为了更好地理解调度,我们先看一下集群模式的Spark程序运行架构图,如上所示: 2、Spark中的基本概念 1、Application:表示你的程序 2、Driver:表示m 阅读全文
posted @ 2021-05-29 10:08 每天都要进步啊 阅读(416) 评论(0) 推荐(0) 编辑
摘要: Spark 任务执行的流程 四个步骤1.构建DAG(调用RDD上的方法)2.DAGScheduler将DAG切分Stage(切分的依据是Shuffle),将Stage中生成的Task以TaskSet的形式给TaskScheduler3.TaskScheduler调度Task(根据资源情况将Task调 阅读全文
posted @ 2021-05-28 11:12 每天都要进步啊 阅读(953) 评论(0) 推荐(0) 编辑
摘要: 1.SparkContext哪一端生成的? Driver端 2.DAG是在哪一端被构建的? Driver端 3.RDD是在哪一端生成的? Driver端 4.广播变量是在哪一端调用的方法进行广播的? Driver端 5.要广播的数据应该在哪一端先创建好再广播呢? Driver端 6.调用RDD的算子 阅读全文
posted @ 2021-05-28 10:58 每天都要进步啊 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性 阅读全文
posted @ 2021-05-26 16:45 每天都要进步啊 阅读(328) 评论(0) 推荐(0) 编辑