随笔档案「2021年7月」 - 坤坤无敌

hive第五天

摘要：第五天笔记 Hive With as 用法 // 之前的写法 select t.id ,t.name ,t.clazz ,t.score_id ,t.score ,c.subject_name from( select a.id ,a.name ,a.clazz ,b.score_id ,b.sco 阅读全文

posted @ 2021-07-25 20:15 坤坤无敌阅读(46) 评论(0) 推荐(0)

hive第四天

摘要：第四天笔记 Hive 常用函数关系运算 // 等值比较 = == <=> // 不等值比较 != <> // 区间比较： select * from default.students where id between 1500100001 and 1500100010; // 空值/非空值判断：i 阅读全文

posted @ 2021-07-25 20:14 坤坤无敌阅读(61) 评论(0) 推荐(0)

hive第三天笔记

摘要：第三天笔记 SQL练习： 1、count(*)、count(1) 、count('字段名') 区别 2、HQL 执行优先级： from、where、 group by 、having、order by、join、select 、limit 3、where 条件里不支持子查询，实际上是支持 in、no 阅读全文

posted @ 2021-07-25 20:13 坤坤无敌阅读(136) 评论(0) 推荐(0)

hive第二天笔记

摘要：第二天笔记 Hive建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名，字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT tab 阅读全文

posted @ 2021-07-25 20:12 坤坤无敌阅读(65) 评论(0) 推荐(0)

hive练习2

摘要：练习：一：将下列数据加载hive表。员工信息表emp：字段：员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名：EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp( EMPNO int ,EN 阅读全文

posted @ 2021-07-25 20:11 坤坤无敌阅读(187) 评论(0) 推荐(0)

hive

摘要：第二天笔记 Hive建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名，字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT tab 阅读全文

posted @ 2021-07-25 20:09 坤坤无敌阅读(100) 评论(0) 推荐(0)

hive第一天

摘要：1、模仿建表语句，创建subject表，并使用hdfs dfs -put 命令加载数据 CREATE TABLE `subject`( `subject_id` bigint COMMENT '科目id', `subject_name` string COMMENT '科目名称') COMMENT 阅读全文

posted @ 2021-07-25 20:01 坤坤无敌阅读(98) 评论(0) 推荐(0)

spark streaming 窗口

摘要：package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import 阅读全文

posted @ 2021-07-25 17:00 坤坤无敌阅读(99) 评论(0) 推荐(0)

spark streaming 缉查布控

摘要：package com.shujia.spark.streaming import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.kafka.common.serialization.StringDeserial 阅读全文

posted @ 2021-07-25 16:59 坤坤无敌阅读(62) 评论(0) 推荐(0)

spark streaming 7 Driect

摘要：package com.shujia.spark.streaming import java.util import org.apache.spark.SparkConf import org.apache.spark.streaming.{Durations, StreamingContext} 阅读全文

posted @ 2021-07-25 16:58 坤坤无敌阅读(49) 评论(0) 推荐(0)

spark streaming Receive

摘要：/*package com.shujia.spark.streaming import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLe 阅读全文

posted @ 2021-07-25 16:57 坤坤无敌阅读(48) 评论(0) 推荐(0)

spark streaming 5 read kafka

摘要：package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SaveMode, 阅读全文

posted @ 2021-07-25 16:56 坤坤无敌阅读(53) 评论(0) 推荐(0)

spark streaming 3 RDD To DS

摘要：package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession impor 阅读全文

posted @ 2021-07-25 16:55 坤坤无敌阅读(84) 评论(0) 推荐(0)

spark streaming 4 SSCToMysql

摘要：package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SaveMode, 阅读全文

posted @ 2021-07-25 16:55 坤坤无敌阅读(49) 评论(0) 推荐(0)

spark streaming 2 streaming on RDD

摘要：package com.shujia.spark.streaming import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{DataFrame, SparkSession} import org. 阅读全文

posted @ 2021-07-25 16:54 坤坤无敌阅读(56) 评论(0) 推荐(0)

spark streaming 1

摘要：package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import 阅读全文

posted @ 2021-07-25 16:53 坤坤无敌阅读(68) 评论(0) 推荐(0)

spark练习 stu 行转列列转行

摘要：package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SparkSession} object Demo8Stu { def main(args: Array[String]): Unit = { val spark 阅读全文

posted @ 2021-07-25 16:50 坤坤无敌阅读(151) 评论(0) 推荐(0)

kafka api

摘要：package com.shujia.kafka import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord} object Demo1KafkaProduce 阅读全文

posted @ 2021-07-24 22:32 坤坤无敌阅读(87) 评论(0) 推荐(0)

kafka搭建

摘要：1、上传压缩包到任意节点 2、解压，配置环境变量 3、修改config/server.properties 1、broker.id=0，每一个节点broker.id 要不一样 2、zookeeper.connect=master:2181,node1:2181,node2:2181 3、log.di 阅读全文

posted @ 2021-07-24 21:12 坤坤无敌阅读(137) 评论(0) 推荐(0)

spark读取kafka

摘要：package com.shujia.spark.streaming import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.spark.streaming.kafka010.ConsumerStrategi 阅读全文

posted @ 2021-07-24 21:12 坤坤无敌阅读(313) 评论(0) 推荐(0)

kafka初识

摘要：1、kafka：高吞吐的分布式消息系统（消息队列） 2、消息队列应用场景（1）系统之间解耦合 queue模型 publish-subscribe模型（2）峰值压力缓冲（3）异步通信 3、kafka架构 producer：消息生存者 consumer：消息消费者 broker：kafka集群的s 阅读全文

posted @ 2021-07-24 20:34 坤坤无敌阅读(119) 评论(0) 推荐(0)

spark知识点图解

摘要：cache checkpoint groupBykey和reduceByKey区别 BlockManager MapReduce过程 RDD的五大特性 RDD的依赖关系 shuffle过程 spark搭建 spark运行时 spark-client spark-cluster 资源调度和任务申请阅读全文

posted @ 2021-07-21 19:53 坤坤无敌阅读(53) 评论(0) 推荐(0)

spark搭建

摘要：1、上传解压，配置环境变量配置bin目录 2、修改配置文件 conf mv spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077 export SPAR 阅读全文

posted @ 2021-07-21 19:27 坤坤无敌阅读(120) 评论(0) 推荐(0)

spark sql

摘要：spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行，上线使用 spark-submit提交 2、saprk shell (repl) 里面使用sqlContext 测试使用，简单任务使用 spark-shell --master yarn-client 不能使用yarn 阅读全文

posted @ 2021-07-21 17:04 坤坤无敌阅读(133) 评论(0) 推荐(0)

资源调度和任务调度

摘要：文字：大数据计算分两步 1、资源调度 yarn-client 1、通过spark-submit提交任务 2、在本地启动Driver val sc = new SparkContext(conf) 3、Driver发请求给RM 启动AM 4、RM分配资源启动AM 5、AM向RM申请资源启动Excut 阅读全文

posted @ 2021-07-21 17:01 坤坤无敌阅读(475) 评论(0) 推荐(0)

SparkOnHive

摘要：package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo6SparkOnHive { def main(args: Array[String]): 阅读全文

posted @ 2021-07-21 16:55 坤坤无敌阅读(77) 评论(0) 推荐(0)

Submit

摘要：package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo5Submit { def main(args: Array[String]): Unit 阅读全文

posted @ 2021-07-21 16:53 坤坤无敌阅读(713) 评论(0) 推荐(0)

DFonRDD

摘要：package com.shujia.spark.sql import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SparkSe 阅读全文

posted @ 2021-07-21 16:52 坤坤无敌阅读(91) 评论(0) 推荐(0)

DataFDataFrameApi

摘要：package com.shujia.spark.sql import org.apache.spark.sql._ import org.apache.spark.sql.expressions.Window object Demo3DataFrameApi { def main(args: Ar 阅读全文

posted @ 2021-07-21 16:51 坤坤无敌阅读(115) 评论(0) 推荐(0)

DataSource

摘要：package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo2DataSource { def main(args: Array[String]): U 阅读全文

posted @ 2021-07-21 16:50 坤坤无敌阅读(335) 评论(0) 推荐(0)

Spark Session

摘要：package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1SparkSession { def main(args: Array[String]): 阅读全文

posted @ 2021-07-21 16:49 坤坤无敌阅读(131) 评论(0) 推荐(0)

Accumulator和Broadcast

摘要：Accumulate package com.shujia.spark.core import java.lang import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD import org 阅读全文

posted @ 2021-07-19 23:06 坤坤无敌阅读(59) 评论(0) 推荐(0)

Hbase

摘要：1、HBase存储结构 2、RowKey设计原则 1）rowkey长度原则 2）rowkey散列原则 3）rowkey唯一原则 3、RowKey如何设计 1）生成随机数、hash、散列值 2）字符串反转 4、Phoenix二级索引（讲原理）对于Hbase，如果想精确定位到某行记录，唯一的办法就是通阅读全文

posted @ 2021-07-18 22:44 坤坤无敌阅读(61) 评论(0) 推荐(0)

PageRank

摘要：package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo19PageRank { def main(args: 阅读全文

posted @ 2021-07-18 11:33 坤坤无敌阅读(335) 评论(0) 推荐(0)

PI

摘要：package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.util.Random object Demo18 阅读全文

posted @ 2021-07-18 11:20 坤坤无敌阅读(403) 评论(0) 推荐(0)

Student计算

摘要：package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo17Student { def main(args: 阅读全文

posted @ 2021-07-18 11:17 坤坤无敌阅读(103) 评论(0) 推荐(0)

CheckPoint

摘要：package com.shujia.spark.core import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD object Demo16CheckPoint { def main(arg 阅读全文

posted @ 2021-07-18 11:16 坤坤无敌阅读(236) 评论(0) 推荐(0)

Cache

摘要：package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf, SparkCo 阅读全文

posted @ 2021-07-18 11:15 坤坤无敌阅读(76) 评论(0) 推荐(0)

Partition

摘要：package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{Partitioner, SparkConf, SparkContext} object Demo13Patition { d 阅读全文

posted @ 2021-07-18 11:12 坤坤无敌阅读(362) 评论(0) 推荐(0)

Flume面试知识总结

摘要：1、Flume组成，Put事务，Take事务 1）taildir source （1）断点续传、多目录（2）哪个flume版本产生的？Apache1.7、CDH1.6 （3）没有断点续传功能时怎么做的？自定义（4）taildir挂了怎么办？不会丢数：断点续传重复数据：（5）怎么处理重复数阅读全文

posted @ 2021-07-16 22:51 坤坤无敌阅读(98) 评论(0) 推荐(0)

Zookeeper面试知识

摘要：1、Zookeeper简介 Zookeeper是一个高效的分布式协调服务，可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息，可以用来存储一些配置、发布与订阅等少量信息。Hadoop、Storm、消息中间件、RPC服务框架、分布式数据库同步系统，这些都是Zo 阅读全文

posted @ 2021-07-16 22:43 坤坤无敌阅读(63) 评论(0) 推荐(0)

Action算子

摘要：package com.shujia.spark.core import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.spark.rdd.R 阅读全文

posted @ 2021-07-16 22:17 坤坤无敌阅读(80) 评论(0) 推荐(0)

SortBy

摘要：package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo10Sort { def main(args: Arr 阅读全文

posted @ 2021-07-16 22:16 坤坤无敌阅读(333) 评论(0) 推荐(0)

spark关联表

摘要：Union package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo8Union { def main(arg 阅读全文

posted @ 2021-07-16 22:15 坤坤无敌阅读(173) 评论(0) 推荐(0)

GroupByKey，ReduceByKey

摘要：package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo6GroupByKey { def main(args 阅读全文

posted @ 2021-07-16 22:13 坤坤无敌阅读(65) 评论(0) 推荐(0)

Sample：抽样算子

摘要：package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo5Sample { def main(args: Ar 阅读全文

posted @ 2021-07-16 22:12 坤坤无敌阅读(95) 评论(0) 推荐(0)

spark Map,Filter,FlatMap

摘要：map package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo2Map { def main(args: A 阅读全文

posted @ 2021-07-16 22:09 坤坤无敌阅读(118) 评论(0) 推荐(0)

spark WordCount

摘要：spark实现Wordcount package com.shujia.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo1WordCount 阅读全文

posted @ 2021-07-16 22:03 坤坤无敌阅读(71) 评论(0) 推荐(0)

spark 初识

摘要：（摘自xiaohu_bigdata） Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点：运行速度快：Spark使用先进的DAG（Directed Acyc 阅读全文

posted @ 2021-07-16 22:01 坤坤无敌阅读(282) 评论(0) 推荐(0)

异常+闭包

摘要：package scala import java.io.{FileNotFoundException, FileReader} object Demo31Exception { def main(args: Array[String]): Unit = { /** * 异常处理 * */ try 阅读全文

posted @ 2021-07-15 22:43 坤坤无敌阅读(40) 评论(0) 推荐(0)

scala 隐式转换

摘要：package scala object Demo28Implicit { def main(args: Array[String]): Unit = { /** * 显示类型转换 * */ val s: String = "1000" //显示转换 val int: Int = s.toInt / 阅读全文

posted @ 2021-07-15 22:42 坤坤无敌阅读(94) 评论(0) 推荐(0)

scala 模式匹配

摘要：package scala import java.io object Demo27Match { def main(args: Array[String]): Unit = { /** * java中的模式匹配可以匹配，基本数据类型，字符串，枚举 * * scala中的模式匹配，可以匹配基本数据类阅读全文

posted @ 2021-07-15 22:40 坤坤无敌阅读(151) 评论(0) 推荐(0)

scala计算4

摘要：题目：统计每科都及格的学生 package scala import scala.io.Source object Demo26Student2 { def main(args: Array[String]): Unit = { /** * * 3、统计每科都及格的学生 * */ //1、计算每隔科阅读全文

posted @ 2021-07-15 22:39 坤坤无敌阅读(126) 评论(0) 推荐(0)

scala 计算3

摘要：题目： 1、统计学生的总分2、统计总分年级排名前十学生各科的分数3、统计总分大于年级平均分的学生 package scala import scala.io.Source object Demo25Score { def main(args: Array[String]): Unit = { /** 阅读全文

posted @ 2021-07-15 22:37 坤坤无敌阅读(129) 评论(0) 推荐(0)

scala 计算2

摘要：package scala import scala.io.Source object Demo24Student1 { def main(args: Array[String]): Unit = { /** * * 1、统计班级人数 * */ //1、读取数据 val students: List 阅读全文

posted @ 2021-07-15 22:34 坤坤无敌阅读(89) 评论(0) 推荐(0)

hive面试题总结

摘要：1、hive的架构 1）用户接口：Client CLI（command-line interface）、JDBC/ODBC(jdbc 访问 hive)、WEBUI（浏览器访问 hive） 2）元数据：Metastore 元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区阅读全文

posted @ 2021-07-14 23:42 坤坤无敌阅读(657) 评论(0) 推荐(0)

hadoop面试题总结

摘要：1、hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 9000 8020 2、hadoop集群搭建 hadoop搭建流程概述：（1）准备三个客户端阅读全文

posted @ 2021-07-14 19:27 坤坤无敌阅读(296) 评论(0) 推荐(0)

scala 计算1

摘要：计算平均年龄 package scala import scala.io.Source object Demo23Student { def main(args: Array[String]): Unit = { /** * 统计班级的平均年龄 * */ //1、读取学生数据 val student 阅读全文

posted @ 2021-07-14 11:25 坤坤无敌阅读(95) 评论(0) 推荐(0)

scala WordCount

摘要：WordCount package scala import scala.io.Source object Demo22WordCount { def main(args: Array[String]): Unit = { //1、读取文件 //转换成集合 val lines: List[Strin 阅读全文

posted @ 2021-07-14 11:24 坤坤无敌阅读(121) 评论(0) 推荐(0)

scala 可变集合

摘要：可变集合 package scala import scala.collection.mutable import scala.collection.mutable.ListBuffer object Demo21Mutable { def main(args: Array[String]): Un 阅读全文

posted @ 2021-07-14 11:23 坤坤无敌阅读(206) 评论(0) 推荐(0)

scala map

摘要：map package scala object Demo20Map { def main(args: Array[String]): Unit = { /** * map k v 格式 *默认不可变 */ val map = Map(("001","张三"),("002","李四")) print 阅读全文

posted @ 2021-07-14 11:21 坤坤无敌阅读(76) 评论(0) 推荐(0)

scala 元组

摘要：元组 package scala object Demo18Tuple { def main(args: Array[String]): Unit = { /** * 元组：有序不唯一 * 最多只能有22个元素 * 可以直接通过下划线加下标取数 * * 解决集合在通过下标取数时可能出现在表越界的阅读全文

posted @ 2021-07-14 11:18 坤坤无敌阅读(45) 评论(0) 推荐(0)

scala list set

摘要：集合 package scala object Demo17List { def main(args: Array[String]): Unit = { /** * list , 相当于java中的ArrayList * scala 默认的list 是不可变的 * */ val list = Lis 阅读全文

posted @ 2021-07-14 11:16 坤坤无敌阅读(104) 评论(0) 推荐(0)

scala 函数

摘要：函数的定义 package scala object Demo12Fun1 { def main(args: Array[String]): Unit = { /** * 函数的定义 * scala 可以在任何位置定义函数 * 类中定义函数：需要通过类的对象调用 * object中定义的函数可以直阅读全文

posted @ 2021-07-14 11:15 坤坤无敌阅读(96) 评论(0) 推荐(0)

scala 类和对象样例类类的继承

摘要：类和对象 package scala object Demo9Class { def main(args: Array[String]): Unit = { /** * 类和对象 * */ val student = new Student(1, "张三") println(student._nam 阅读全文

posted @ 2021-07-13 15:10 坤坤无敌阅读(215) 评论(0) 推荐(0)

scala IO 连接Jdbc

摘要：IO： package scala import java.io.{BufferedReader, BufferedWriter, FileReader, FileWriter} import scala.io.{BufferedSource, Source} object Demo7IO { de 阅读全文

posted @ 2021-07-13 15:04 坤坤无敌阅读(68) 评论(0) 推荐(0)

scala 和java

摘要：package scala object Demo3ScalaOnJava { def main(args: Array[String]): Unit = { /** * scala 和java相互兼容语法不兼容 * */ //在scala中使用java中的类 val student = new 阅读全文

posted @ 2021-07-13 13:57 坤坤无敌阅读(66) 评论(0) 推荐(0)

scala语法基础

摘要：package scala object Demo2Base { def main(args: Array[String]): Unit = { /*** * 语法基础 */ //变量 //类型推断，自动根据等号右边推断变量的类型 var s = 1 //手动增加类型 val i:Int =1 /* 阅读全文

posted @ 2021-07-13 11:12 坤坤无敌阅读(75) 评论(0) 推荐(0)

scalaHelloWorld

摘要：恢复内容开始 scala.mind scala 语言特点 Scala是一门以Java虚拟机（JVM）为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言（静态语言需要提前编译的如：Java、c、c++等，动态语言如：js）。 1）Scala是一门多范式的编程语言，Scala支持面阅读全文

posted @ 2021-07-13 11:03 坤坤无敌阅读(87) 评论(0) 推荐(0)

07 2021 档案

公告