随笔档案「2019年8月」 - 青紫天涯

hive面试总结

摘要：metastore 安装方式有什么区别内嵌模式内嵌模式使用的是内嵌的 Derby 数据库来存储元数据，也不需要额外起 Metastore 服务。这个是默认的，配置简单，但是一次只能一个客户端连接，适用于用来实验，不适用于生产环境。本地元存储本地安装 mysql 替代 derby 存储元数据，阅读全文

posted @ 2019-08-30 16:02 青紫天涯阅读(321) 评论(0) 推荐(0)

hive的优化

摘要：Hive优化1.我们知道大数据场景下不害怕数据量大，害怕的是数据倾斜，怎样避免数据倾斜，找到可能产生数据倾斜的函数尤为关键，数据量较大的情况下，慎用count(distinct)，count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化举例：阅读全文

posted @ 2019-08-30 14:30 青紫天涯阅读(422) 评论(0) 推荐(0)

hive中几个排序方式的区别

摘要：hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别 order by： hive中的order by 和传统sql中的order by 一样，对数据做全局排序，加上排序，会新启动一个job进行排序，会把所有数据放到同一个reduce中阅读全文

posted @ 2019-08-30 13:21 青紫天涯阅读(2329) 评论(0) 推荐(0)

单例模式学习（一）

摘要：什么是单例？为什么要用单例？一个类被设计出来，就代表它表示具有某种行为（方法），属性（成员变量），而一般情况下，当我们想使用这个类时，会使用new关键字，这时候jvm会帮我们构造一个该类的实例。而我们知道，对于new这个关键字以及该实例，相对而言是比较耗费资源的。所以如果我们能够想办法在jvm启动阅读全文

posted @ 2019-08-25 17:06 青紫天涯阅读(268) 评论(0) 推荐(0)

java线程池学习（一）

摘要：前言在实际工作中，线程是一个我们经常要打交道的角色，它可以帮我们灵活利用资源，提升程序运行效率。但是我们今天不是探讨线程！我们今天来聊聊另一个与线程息息相关的角色：线程池.本篇文章的目的就是全方位的解析线程池的作用，以及jdk中的接口，实现以及原理，另外对于某些重要概念，将从源码的角度探讨。 ti 阅读全文

posted @ 2019-08-25 16:58 青紫天涯阅读(236) 评论(0) 推荐(0)

redis面试总结（二）

摘要：7.redis 集群模式的工作原理能说一下么？在集群模式下，redis 的 key 是如何寻址的？分布式寻址都有哪些算法？了解一致性 hash 算法吗？考点分析在前几年，redis 如果要搞几个节点，每个节点存储一部分的数据，得借助一些中间件来实现，比如说有 codis，或者 twemproxy 阅读全文

posted @ 2019-08-25 16:45 青紫天涯阅读(304) 评论(0) 推荐(0)

redis面试总结（一）

摘要：1.项目中缓存是如何使用的？为什么要用缓存？缓存使用不当会造成什么后果？面试题剖析为什么要用缓存？用缓存，主要有两个用途：高性能、高并发。高性能假设这么个场景，你有个操作，一个请求过来，吭哧吭哧你各种乱七八糟操作 mysql，半天查出来一个结果，耗时 600ms。但是这个结果可能接下来几个阅读全文

posted @ 2019-08-25 16:37 青紫天涯阅读(258) 评论(0) 推荐(0)

spark 内存溢出处理

摘要：简介 Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作。包括：flatMap，filter，mapPatitions等。 shuffle后内存溢出的shuffle操作包括join，reduceByKey，rep 阅读全文

posted @ 2019-08-25 12:57 青紫天涯阅读(4894) 评论(1) 推荐(0)

大数据面试总结（一）

摘要：一、如何检查namenode是否正常运行?重启namenode的命令是什么? 通过节点信息和浏览器查看，通过脚本监控 hadoop-daemon.sh start namenode hdfs-daemon.sh start namenode 二、hdfs存储机制是怎样的? 1) client端发送写阅读全文

posted @ 2019-08-25 12:39 青紫天涯阅读(17925) 评论(1) 推荐(1)

Spark 知识点总结--调优（一）

摘要：搭建集群： SPARK_WORKER-CORES : 当计算机是32核双线程的时候，需要指定SPARK_WORKER_CORES的个数为64个 SPARK_WORKER_MEMORY : 任务提交： ./spark-submit --master node:port --executor-cores 阅读全文

posted @ 2019-08-24 08:36 青紫天涯阅读(642) 评论(0) 推荐(0)

java 性能调优（一）

摘要：1. 尽量在合适的场合使用单例使用单例可以减轻加载的负担，缩短加载的时间，提高加载的效率，但并不是所有地方都适用于单例，简单来说，单例主要适用于以下三个方面：第一，控制资源的使用，通过线程同步来控制资源的并发访问；第二，控制实例的产生，以达到节约资源的目的；第三，控制数据共享，在不建立直接关阅读全文

posted @ 2019-08-07 07:38 青紫天涯阅读(206) 评论(0) 推荐(0)

flink 学习总结（二）

摘要：flink wordcount 代码及相关知识点总结： pom 文件： Flink运行时包含两种类型的进程： Flink程序可以运行在standalone集群，Yarn或者Mesos资源调度框架中。 clients不是Flink程序运行时的一部分，作用是向JobManager准备和发送dataflo 阅读全文

posted @ 2019-08-06 11:59 青紫天涯阅读(2195) 评论(0) 推荐(0)

flink 学习总结（一）

摘要：flink程序开发流程： 1、 set up the batch execution environment 2、get date 3、develop business logic 4、executor program 用flink实现githab上面的example ：用批处理实现wordcou 阅读全文

posted @ 2019-08-04 20:17 青紫天涯阅读(1692) 评论(0) 推荐(0)

青紫天涯

08 2019 档案

公告