07 2021 档案
摘要:第五天笔记 Hive With as 用法 // 之前的写法 select t.id ,t.name ,t.clazz ,t.score_id ,t.score ,c.subject_name from( select a.id ,a.name ,a.clazz ,b.score_id ,b.sco
阅读全文
摘要:第四天笔记 Hive 常用函数 关系运算 // 等值比较 = == <=> // 不等值比较 != <> // 区间比较: select * from default.students where id between 1500100001 and 1500100010; // 空值/非空值判断:i
阅读全文
摘要:第三天笔记 SQL练习: 1、count(*)、count(1) 、count('字段名') 区别 2、HQL 执行优先级: from、where、 group by 、having、order by、join、select 、limit 3、where 条件里不支持子查询,实际上是支持 in、no
阅读全文
摘要:第二天笔记 Hive建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名,字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT tab
阅读全文
摘要:练习: 一:将下列数据加载hive表。 员工信息表emp: 字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号 英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp( EMPNO int ,EN
阅读全文
摘要:第二天笔记 Hive建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名,字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT tab
阅读全文
摘要:1、模仿建表语句,创建subject表,并使用hdfs dfs -put 命令加载数据 CREATE TABLE `subject`( `subject_id` bigint COMMENT '科目id', `subject_name` string COMMENT '科目名称') COMMENT
阅读全文
摘要:package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import
阅读全文
摘要:package com.shujia.spark.streaming import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.kafka.common.serialization.StringDeserial
阅读全文
摘要:package com.shujia.spark.streaming import java.util import org.apache.spark.SparkConf import org.apache.spark.streaming.{Durations, StreamingContext}
阅读全文
摘要:/*package com.shujia.spark.streaming import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLe
阅读全文
摘要:package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SaveMode,
阅读全文
摘要:package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession impor
阅读全文
摘要:package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SaveMode,
阅读全文
摘要:package com.shujia.spark.streaming import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{DataFrame, SparkSession} import org.
阅读全文
摘要:package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import
阅读全文
摘要:package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SparkSession} object Demo8Stu { def main(args: Array[String]): Unit = { val spark
阅读全文
摘要:package com.shujia.kafka import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord} object Demo1KafkaProduce
阅读全文
摘要:1、上传压缩包到任意节点 2、解压,配置环境变量 3、修改config/server.properties 1、broker.id=0,每一个节点broker.id 要不一样 2、zookeeper.connect=master:2181,node1:2181,node2:2181 3、log.di
阅读全文
摘要:package com.shujia.spark.streaming import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.spark.streaming.kafka010.ConsumerStrategi
阅读全文
摘要:1、kafka:高吞吐的分布式消息系统(消息队列) 2、消息队列应用场景 (1)系统之间解耦合 queue模型 publish-subscribe模型 (2)峰值压力缓冲 (3)异步通信 3、kafka架构 producer:消息生存者 consumer:消息消费者 broker:kafka集群的s
阅读全文
摘要:cache checkpoint groupBykey和reduceByKey区别 BlockManager MapReduce过程 RDD的五大特性 RDD的依赖关系 shuffle过程 spark搭建 spark运行时 spark-client spark-cluster 资源调度和任务申请
阅读全文
摘要:1、上传解压,配置环境变量 配置bin目录 2、修改配置文件 conf mv spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077 export SPAR
阅读全文
摘要:spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行,上线使用 spark-submit提交 2、saprk shell (repl) 里面使用sqlContext 测试使用,简单任务使用 spark-shell --master yarn-client 不能使用yarn
阅读全文
摘要:文字: 大数据计算分两步 1、资源调度 yarn-client 1、通过spark-submit提交任务 2、在本地启动Driver val sc = new SparkContext(conf) 3、Driver发请求给RM 启动AM 4、RM分配资源启动AM 5、AM向RM申请资源启动Excut
阅读全文
摘要:package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo6SparkOnHive { def main(args: Array[String]):
阅读全文
摘要:package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo5Submit { def main(args: Array[String]): Unit
阅读全文
摘要:package com.shujia.spark.sql import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SparkSe
阅读全文
摘要:package com.shujia.spark.sql import org.apache.spark.sql._ import org.apache.spark.sql.expressions.Window object Demo3DataFrameApi { def main(args: Ar
阅读全文
摘要:package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo2DataSource { def main(args: Array[String]): U
阅读全文
摘要:package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1SparkSession { def main(args: Array[String]):
阅读全文
摘要:Accumulate package com.shujia.spark.core import java.lang import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD import org
阅读全文
摘要:1、HBase存储结构 2、RowKey设计原则 1)rowkey长度原则 2)rowkey散列原则 3)rowkey唯一原则 3、RowKey如何设计 1)生成随机数、hash、散列值 2)字符串反转 4、Phoenix二级索引(讲原理) 对于Hbase,如果想精确定位到某行记录,唯一的办法就是通
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo19PageRank { def main(args:
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.util.Random object Demo18
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo17Student { def main(args:
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD object Demo16CheckPoint { def main(arg
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf, SparkCo
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{Partitioner, SparkConf, SparkContext} object Demo13Patition { d
阅读全文
摘要:1、Flume组成,Put事务,Take事务 1)taildir source (1)断点续传、多目录 (2)哪个flume版本产生的?Apache1.7、CDH1.6 (3)没有断点续传功能时怎么做的? 自定义 (4)taildir挂了怎么办? 不会丢数:断点续传 重复数据: (5)怎么处理重复数
阅读全文
摘要:1、Zookeeper简介 Zookeeper是一个高效的分布式协调服务,可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息,可以用来存储一些配置、发布与订阅等少量信息。Hadoop、Storm、消息中间件、RPC服务框架、分布式数据库同步系统,这些都是Zo
阅读全文
摘要:package com.shujia.spark.core import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.spark.rdd.R
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo10Sort { def main(args: Arr
阅读全文
摘要:Union package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo8Union { def main(arg
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo6GroupByKey { def main(args
阅读全文
摘要:package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo5Sample { def main(args: Ar
阅读全文
摘要:map package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo2Map { def main(args: A
阅读全文
摘要:spark实现Wordcount package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo1WordCount
阅读全文
摘要:(摘自xiaohu_bigdata) Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyc
阅读全文
摘要:package scala import java.io.{FileNotFoundException, FileReader} object Demo31Exception { def main(args: Array[String]): Unit = { /** * 异常处理 * */ try
阅读全文
摘要:package scala object Demo28Implicit { def main(args: Array[String]): Unit = { /** * 显示类型转换 * */ val s: String = "1000" //显示转换 val int: Int = s.toInt /
阅读全文
摘要:package scala import java.io object Demo27Match { def main(args: Array[String]): Unit = { /** * java中的模式匹配可以匹配,基本数据类型,字符串,枚举 * * scala中的模式匹配,可以匹配基本数据类
阅读全文
摘要:题目:统计每科都及格的学生 package scala import scala.io.Source object Demo26Student2 { def main(args: Array[String]): Unit = { /** * * 3、统计每科都及格的学生 * */ //1、计算每隔科
阅读全文
摘要:题目: 1、统计学生的总分2、统计总分年级排名前十学生各科的分数3、统计总分大于年级平均分的学生 package scala import scala.io.Source object Demo25Score { def main(args: Array[String]): Unit = { /**
阅读全文
摘要:package scala import scala.io.Source object Demo24Student1 { def main(args: Array[String]): Unit = { /** * * 1、统计班级人数 * */ //1、读取数据 val students: List
阅读全文
摘要:1、hive的架构 1)用户接口:Client CLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问 hive) 2)元数据:Metastore 元数据包括:表名、表所属的数据库(默认是 default)、表的拥有者、列/分区
阅读全文
摘要:1、hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 9000 8020 2、hadoop集群搭建 hadoop搭建流程概述: (1)准备三个客户端
阅读全文
摘要:计算平均年龄 package scala import scala.io.Source object Demo23Student { def main(args: Array[String]): Unit = { /** * 统计班级的平均年龄 * */ //1、读取学生数据 val student
阅读全文
摘要:WordCount package scala import scala.io.Source object Demo22WordCount { def main(args: Array[String]): Unit = { //1、读取文件 //转换成集合 val lines: List[Strin
阅读全文
摘要:可变集合 package scala import scala.collection.mutable import scala.collection.mutable.ListBuffer object Demo21Mutable { def main(args: Array[String]): Un
阅读全文
摘要:map package scala object Demo20Map { def main(args: Array[String]): Unit = { /** * map k v 格式 *默认不可变 */ val map = Map(("001","张三"),("002","李四")) print
阅读全文
摘要:元组 package scala object Demo18Tuple { def main(args: Array[String]): Unit = { /** * 元组 :有序 不唯一 * 最多只能有22个元素 * 可以直接通过下划线加下标取数 * * 解决集合在通过下标取数时可能出现在表越界的
阅读全文
摘要:集合 package scala object Demo17List { def main(args: Array[String]): Unit = { /** * list , 相当于java中的ArrayList * scala 默认的list 是不可变的 * */ val list = Lis
阅读全文
摘要:函数的定义 package scala object Demo12Fun1 { def main(args: Array[String]): Unit = { /** * 函数的定义 * scala 可以在任何位置定义函数 * 类中定义函数: 需要通过类的对象调用 * object中定义的函数可以直
阅读全文
摘要:类和对象 package scala object Demo9Class { def main(args: Array[String]): Unit = { /** * 类和对象 * */ val student = new Student(1, "张三") println(student._nam
阅读全文
摘要:IO: package scala import java.io.{BufferedReader, BufferedWriter, FileReader, FileWriter} import scala.io.{BufferedSource, Source} object Demo7IO { de
阅读全文
摘要:package scala object Demo3ScalaOnJava { def main(args: Array[String]): Unit = { /** * scala 和java相互兼容 语法不兼容 * */ //在scala中使用java中的类 val student = new
阅读全文
摘要:package scala object Demo2Base { def main(args: Array[String]): Unit = { /*** * 语法基础 */ //变量 //类型推断,自动根据等号右边推断变量的类型 var s = 1 //手动增加类型 val i:Int =1 /*
阅读全文
摘要:恢复内容开始 scala.mind scala 语言特点 Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言(静态语言需要提前编译的如:Java、c、c++等,动态语言如:js)。 1)Scala是一门多范式的编程语言,Scala支持面
阅读全文