摘要:
Hive建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名,字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT table_com 阅读全文
摘要:
package com.ustcinfo.SDK import java.sql.{Connection, PreparedStatement} import org.apache.hadoop.io.{LongWritable, Text} import org.apache.hadoop.map 阅读全文
摘要:
一、调用hadoopfile方法读取TXT文件,针对复杂的分割方式,例如|+|,;等 val gbkPath = s"/bdtj/line/DD_OUT_NOW_LV_$month.txt"//文件路径//将gbkPath以参数的形式传入进行读取 val Company2_temp = spark. 阅读全文
摘要:
HiveSQL技术原理、优化与面试 Hive SQL 编译成MapReduce过程 编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段 1、词法、语法解析: Antlr 定义 SQL 的语法规则,完成 阅读全文
摘要:
JAVA JAVA简介 Java是一门面向对象编程语言,不仅吸收了C语言的各种优点,还摒弃了C里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程 。 Java具 阅读全文
摘要:
1. JDK,JRE,JVM三者之间的关系,以及JDK、JRE包含的主要结构有哪些 JDK = JRE + Java的开发工具(javac.exe,java.exe,javadoc.exe)JRD = JVM + Java核心类库 2.为什么要配置path环境变量?如何配置? JAVA_HOME = 阅读全文
摘要:
1、MapReduce运行慢的原因 1、计算机性能 CPU、内存、磁盘健康、网络 2、I/O操作优化 数据倾斜 Map和reduce数设置不合理 reduce等待过久 小文件过多 大量的不可分块的超大文件 spill次数过多 merge次数过多 2、MapReduce优化方法 1、数据输入 1、合并 阅读全文
摘要:
1、概述 Yarn是一个资源调度平台,负责为运算程序提供服务器预算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序相当于运行于操作系统之上的应用程序 2、概念 1、Yarn并不清楚用户提交的程序的运行机制 2、Yarn只提供运算资源的调度(用户程序向Yarn申请资源,Yarn就负 阅读全文
摘要:
1、MapReduce入门 1、MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上 2 阅读全文
摘要:
HDFS概述 1、HDFS概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,他是分布式的,有很多服务器联合起来实现器功能 HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,不适合做网盘的应用 2、HDFS优缺点 优点 1、高容错性 1、数据 阅读全文