08 2019 档案

摘要:metastore 安装方式有什么区别 内嵌模式 内嵌模式使用的是内嵌的 Derby 数据库来存储元数据,也不需要额外起 Metastore 服务。这个是默认的,配置简单,但是一次只能一个客户端连接,适用于用来实验,不适用于生产环境。 本地元存储 本地安装 mysql 替代 derby 存储元数据, 阅读全文
posted @ 2019-08-30 16:02 青紫天涯 阅读(311) 评论(0) 推荐(0) 编辑
摘要:Hive优化1.我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化 举例: 阅读全文
posted @ 2019-08-30 14:30 青紫天涯 阅读(383) 评论(0) 推荐(0) 编辑
摘要:hive中Sort By,Order By,Cluster By,Distribute By,Group By的区别 order by: hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中 阅读全文
posted @ 2019-08-30 13:21 青紫天涯 阅读(2274) 评论(0) 推荐(0) 编辑
摘要:什么是单例?为什么要用单例? 一个类被设计出来,就代表它表示具有某种行为(方法),属性(成员变量),而一般情况下,当我们想使用这个类时,会使用new关键字,这时候jvm会帮我们构造一个该类的实例。而我们知道,对于new这个关键字以及该实例,相对而言是比较耗费资源的。所以如果我们能够想办法在jvm启动 阅读全文
posted @ 2019-08-25 17:06 青紫天涯 阅读(257) 评论(0) 推荐(0) 编辑
摘要:前言 在实际工作中,线程是一个我们经常要打交道的角色,它可以帮我们灵活利用资源,提升程序运行效率。但是我们今天不是探讨线程!我们今天来聊聊另一个与线程息息相关的角色:线程池.本篇文章的目的就是全方位的解析线程池的作用,以及jdk中的接口,实现以及原理,另外对于某些重要概念,将从源码的角度探讨。 ti 阅读全文
posted @ 2019-08-25 16:58 青紫天涯 阅读(226) 评论(0) 推荐(0) 编辑
摘要:7.redis 集群模式的工作原理能说一下么?在集群模式下,redis 的 key 是如何寻址的?分布式寻址都有哪些算法?了解一致性 hash 算法吗? 考点分析 在前几年,redis 如果要搞几个节点,每个节点存储一部分的数据,得借助一些中间件来实现,比如说有 codis,或者 twemproxy 阅读全文
posted @ 2019-08-25 16:45 青紫天涯 阅读(286) 评论(0) 推荐(0) 编辑
摘要:1.项目中缓存是如何使用的?为什么要用缓存?缓存使用不当会造成什么后果? 面试题剖析 为什么要用缓存? 用缓存,主要有两个用途:高性能、高并发。 高性能 假设这么个场景,你有个操作,一个请求过来,吭哧吭哧你各种乱七八糟操作 mysql,半天查出来一个结果,耗时 600ms。但是这个结果可能接下来几个 阅读全文
posted @ 2019-08-25 16:37 青紫天涯 阅读(242) 评论(0) 推荐(0) 编辑
摘要:简介 Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作。包括:flatMap,filter,mapPatitions等。 shuffle后内存溢出的shuffle操作包括join,reduceByKey,rep 阅读全文
posted @ 2019-08-25 12:57 青紫天涯 阅读(4758) 评论(1) 推荐(0) 编辑
摘要:一、如何检查namenode是否正常运行?重启namenode的命令是什么? 通过节点信息和浏览器查看,通过脚本监控 hadoop-daemon.sh start namenode hdfs-daemon.sh start namenode 二、hdfs存储机制是怎样的? 1) client端发送写 阅读全文
posted @ 2019-08-25 12:39 青紫天涯 阅读(17856) 评论(1) 推荐(1) 编辑
摘要:搭建集群: SPARK_WORKER-CORES : 当计算机是32核双线程的时候,需要指定SPARK_WORKER_CORES的个数为64个 SPARK_WORKER_MEMORY : 任务提交: ./spark-submit --master node:port --executor-cores 阅读全文
posted @ 2019-08-24 08:36 青紫天涯 阅读(615) 评论(0) 推荐(0) 编辑
摘要:1. 尽量在合适的场合使用单例 使用单例可以减轻加载的负担,缩短加载的时间,提高加载的效率,但并不是所有地方都适用于单例,简单来说,单例主要适用于以下三个方面: 第一,控制资源的使用,通过线程同步来控制资源的并发访问; 第二,控制实例的产生,以达到节约资源的目的; 第三,控制数据共享,在不建立直接关 阅读全文
posted @ 2019-08-07 07:38 青紫天涯 阅读(197) 评论(0) 推荐(0) 编辑
摘要:flink wordcount 代码及相关知识点总结: pom 文件: Flink运行时包含两种类型的进程: Flink程序可以运行在standalone集群,Yarn或者Mesos资源调度框架中。 clients不是Flink程序运行时的一部分,作用是向JobManager准备和发送dataflo 阅读全文
posted @ 2019-08-06 11:59 青紫天涯 阅读(2167) 评论(0) 推荐(0) 编辑
摘要:flink程序开发流程: 1、 set up the batch execution environment 2、get date 3、develop business logic 4、executor program 用flink实现githab上面的example : 用批处理实现wordcou 阅读全文
posted @ 2019-08-04 20:17 青紫天涯 阅读(1617) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示