04 2022 档案

摘要:贪心证明两个数相等 阅读全文
posted @ 2022-04-30 12:54 jsqup 阅读(135) 评论(0) 推荐(0) 编辑
摘要:导入依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>2.4.6</version> </dependency> <d 阅读全文
posted @ 2022-04-14 14:29 jsqup 阅读(88) 评论(0) 推荐(0) 编辑
摘要:以后可以从这里开始复习spark 阅读全文
posted @ 2022-04-14 14:07 jsqup 阅读(27) 评论(0) 推荐(0) 编辑
摘要:原理 代码 package operator import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import java.lang.Math.random object SparkPI e 阅读全文
posted @ 2022-04-10 12:33 jsqup 阅读(78) 评论(0) 推荐(0) 编辑
摘要:1.sample算子 sample随机抽样算子,根据传进去的小数按比例进行有放回或者无放回的抽样,虽然参数中有比例,但是不保证按比例进行抽样 2.控制算子checkpoint 阅读全文
posted @ 2022-04-09 22:06 jsqup 阅读(31) 评论(0) 推荐(0) 编辑
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount extends App { private val conf = new SparkConf() co 阅读全文
posted @ 2022-04-09 21:15 jsqup 阅读(25) 评论(0) 推荐(0) 编辑
摘要:总结 map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作,映射为另外一个rdd。 flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。 1. map会对每一条输入进行指定的操作,然后为每一条输入返回一个对象。 2. fla 阅读全文
posted @ 2022-04-08 22:12 jsqup 阅读(1810) 评论(0) 推荐(0) 编辑
摘要:栈 存放java在函数中定义的基本类型的变量的引用和数据,以及对象的引用都放在栈中存储。 堆 主要存放new出来的对象和数组。 方法区 存储已经被虚拟机加载的类信息、常量、静态变量,即编译器编译后的代码等数据。 静态变量、常量在方法区;所有方法,包括静态和非静态的,也在方法区。 常量池 静态常量池 阅读全文
posted @ 2022-04-08 11:18 jsqup 阅读(62) 评论(0) 推荐(0) 编辑
摘要:import static java.lang.Math.*; public class test { public static void main(String[] args) { // 向上取整 System.out.println(ceil(-1.5)); // -1.0 System.ou 阅读全文
posted @ 2022-04-08 09:05 jsqup 阅读(141) 评论(0) 推荐(0) 编辑
摘要:虚拟机环境做准备 问题1: 出现了问题,无法将虚拟机和xshell连接。 在虚拟机输入ip addr后,无法得到当前虚拟机的主机号。 解决方案: 输入vi /etc/sysconfig/network-scripts/ifcfg-ens33 只需要把ONBOOT=no改为ONBOOT=yes 再输入 阅读全文
posted @ 2022-04-07 23:23 jsqup 阅读(58) 评论(0) 推荐(0) 编辑
摘要:1.Zookeeper的理解? Zookeeper是一个开源的分布式协调服务框架,主要负责存储和管理数据,并且接受观察者的注册,一旦关注数据发生变化,zookeeper将通知在其数据注册的观察者。 2. zookeeper特点? 1)zookeeper集群中是由一个领导者,多个跟随着组成 2)集群中 阅读全文
posted @ 2022-04-03 17:09 jsqup 阅读(450) 评论(0) 推荐(0) 编辑
摘要:分区容错性 将连续的数据分散的存储到不同的磁盘上,是否可以对数据进行分区。 (对应的是数据的备份) 可用性 每一个操作总是能够在一定时间内返回结果 (一定时间:指系统结果必须在给定时间内返回) (返回结果:指系统返回操作成功或失败的结果) 一致性 系统在执行过某项操作后仍然处于一致的状态 推导 1. 阅读全文
posted @ 2022-04-03 13:04 jsqup 阅读(31) 评论(0) 推荐(0) 编辑
摘要:lead LEAD(col, offset, default) col - 指你要操作的那一列 offset - 偏移几行,如果是1就是下1行,以此类推 default - 如果下一行不存在,用什么值填充 lag LAG(col, offset, default) col - 指你要操作的那一列 o 阅读全文
posted @ 2022-04-03 12:23 jsqup 阅读(361) 评论(0) 推荐(0) 编辑
摘要:1. 什么是hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化和半结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能。 注意: (1)Hive本质是将HDFS转换成MapReduce的任务进行运算,底层由HDFS来提供数据存储。 (2)Hive的元数据存储在SQL上 阅读全文
posted @ 2022-04-02 22:12 jsqup 阅读(1672) 评论(0) 推荐(0) 编辑
摘要:1、char_length(str) (1)计算单位:字符 (2)不管汉字还是数字或者是字母都算是一个字符 2、length(str) (1)计算单位:字节 (2)utf8编码:一个汉字三个字节,一个数字或字母一个字节。 (3)gbk编码:一个汉字两个字节,一个数字或字母一个字节。 3、复习 -- 阅读全文
posted @ 2022-04-02 13:47 jsqup 阅读(366) 评论(0) 推荐(0) 编辑
摘要:1. 索引失效 (1)全值匹配的情况 (2)最佳左前缀法则:如果索引了多列,要遵守最左前缀法则。指的是查询从索引的最左前列开始并且不跳过索引中的列 (3)不在索引列上做任何操作(计算、函数、类型转换),会导致索引失效而转向全表扫描 (4)存储引擎不能使用索引中范围条件右边的列 (5)尽量使用覆盖索引 阅读全文
posted @ 2022-04-01 20:16 jsqup 阅读(110) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示