11 2021 档案

摘要:hive中文注释乱码解决方案: 一开始建表时后面的comment都是写的中文,但是因为建表解析的原因,最终显示的时候红色框住部分全部都是问号。 而理想状态应该是这样 查阅资料发现下面两种方法可以进行修改建表解析方式 ①在Hive元数据存储的Mysql数据库中,执行以下SQL: #修改字段注释字符集 阅读全文
posted @ 2021-11-22 21:29 KaneQi 阅读(666) 评论(0) 推荐(0)
摘要:1.常用方法 1、添加操作(与之前的有点不同) V put(K key,V value) void putAll(Map<? extends K,? extends V> m) 2、删除 void clear() 清空所有键值对 V remove(Object key) 移除指定key的键值对 3、 阅读全文
posted @ 2021-11-19 11:28 KaneQi 阅读(36) 评论(0) 推荐(0)
摘要:1.基本概述 Set接口是Collection的子接口,set接口没有提供额外的方法。但是比Collection接口更加严格了。 2.特点 Set 集合不允许包含相同的元素,即元素唯一。 Set集合支持的遍历方式和Collection集合一样:foreach和Iterator。 Set的常用实现类有 阅读全文
posted @ 2021-11-19 11:17 KaneQi 阅读(43) 评论(0) 推荐(0)
摘要:一次偶然操作,图快在web界面直接操作删除了一些文件,刷新后出现下面的情况 Please check the logs or run fsck in order to identify the missing blocks. See the Hadoop FAQ for common causes 阅读全文
posted @ 2021-11-16 18:44 KaneQi 阅读(1163) 评论(0) 推荐(0)
摘要:dos指令(win和Linux上删除指令不太一样 java环境变量设置,尽量不要设置出中文名称变量,后续会影响路径读取 public只能修饰一个类,且该类的名称和文件名称一致,同一文件中可以有多个类 类、方法、常量的基本命名规范和规则 标识符:java 对类名 方法名 变量名 包名 等命名时采用的字 阅读全文
posted @ 2021-11-09 20:49 KaneQi 阅读(51) 评论(0) 推荐(0)
摘要:Java语言概述 了解基本概念:系统软件、应用软件 掌握常用DOS命令 了解计算机语言发展史与Java语言发展史 了解Java语言特点:面向对象;健壮性;跨平台型 了解Java应用领域 JavaEE后台开发 大数据开发 移动端Android开发 掌握JDK、JRE、JVM三者关系与包含的内容 掌握J 阅读全文
posted @ 2021-11-09 20:43 KaneQi 阅读(36) 评论(0) 推荐(0)
摘要:1、SparkStreaming概述 1、SparkStreaming是什么? SparkStreaming用于处理流式数据 2、SparkStreaming应用场景: 实时领域 3、DStream: DStream是SparkStreaming的数据抽象 DStream流动的是RDD,每个RDD代 阅读全文
posted @ 2021-11-08 23:02 KaneQi 阅读(114) 评论(0) 推荐(0)
摘要:1、SparkSql概述 1、什么是SparkSql? SparkSql用于处理结构化数据,底层还是RDD 2、SparkSql的两个数据抽象: DataFrame、DataSet 1、什么是DataFrame DataFrame可以当做一个二维表格,有schema信息<有列名、列类型> DataF 阅读全文
posted @ 2021-11-08 22:53 KaneQi 阅读(174) 评论(0) 推荐(0)
摘要:数据读取与保存 Text文件 基本语法 数据读取:textFile(String) 数据保存:saveAsTextFile(String) Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在Spark 阅读全文
posted @ 2021-11-07 15:09 KaneQi 阅读(55) 评论(0) 推荐(0)
摘要:RDD创建 根据本地创建 makeRDD: 底层就是使用的parallelize parallelize 读取文件创建 根据读取文件创建RDD spark读取文件的方式: 如果集群配置文件中有配置 HADOOP_CONF_DIR配置,此时默认读取是HDFS文件 【公司一般有配置HADOOP_CONF 阅读全文
posted @ 2021-11-07 15:07 KaneQi 阅读(70) 评论(0) 推荐(0)
摘要:SparkCore-基本概述 RDD概述 弹性分布式数据集,Spark中最基本的数据抽象。代码中的是一个抽象类,其代表一个弹性、不可变、可分区、内部元素可并行计算的集合 RDD特点 弹性 存储:内存与硬盘自动切换,可以存储在内存或者磁盘中 计算:数据丢失可以自动恢复 容错:计算出错有重试机制 分片: 阅读全文
posted @ 2021-11-07 15:05 KaneQi 阅读(79) 评论(0) 推荐(0)
摘要:Spark概述 描述:基于内存的快速、通用、可扩展的分析计算引擎 MR与Spark对比 MR 从数据源获取数据,经过map、shuffle、reduce计算,将结果输出到指定位置,其核心是一次计算,不适合迭代计算和图计算 Spark 从数据源获取数据,将计算逻辑封装成RDD,经过特定算子计算,将结果 阅读全文
posted @ 2021-11-07 15:02 KaneQi 阅读(83) 评论(0) 推荐(0)