该文被密码保护。 阅读全文
posted @ 2019-03-05 11:41 xiaolaotou 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 一、UDF相关概念 UDF,用户自定义函数,可以直接在SQL语句中计算的函数:三个优点: UDF 存放在内存中, 设计不当将导致系统的崩溃, 所以必须在必要的时候实施优化。 对 UDF 的优化是通过手动改写原来的 UDF 代码实现的, 主要有以下两种场景: 1) 如果 UDF 嵌套过于复杂, 可以重 阅读全文
posted @ 2019-03-05 11:34 xiaolaotou 阅读(4190) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce概念 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词, 一是软件框架,二是并行处理,三是可靠且 阅读全文
posted @ 2019-03-05 11:24 xiaolaotou 阅读(1173) 评论(0) 推荐(0) 编辑
摘要: 一、精确定位到有问题的shards 1、查看哪些分片未被分配 2、如果您运行的是Elasticsearch的5+版本,您还可以使用群集分配说明API来尝试获取有关分片分配问题的更多信息: 生成的输出将提供有关群集中某些分片未分配的原因的有用详细信息: 二、Elasticsearch中解析未分配的各个 阅读全文
posted @ 2019-03-05 10:24 xiaolaotou 阅读(3933) 评论(0) 推荐(0) 编辑
摘要: 简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 一、Receiver方式: 使用kafka的高层次Consumer api来实现的,Receiver从kafka中获取的数据都是存储在spark executor的内 阅读全文
posted @ 2019-03-05 09:53 xiaolaotou 阅读(1547) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-03-04 16:44 xiaolaotou 阅读(1583) 评论(0) 推荐(0) 编辑
摘要: 一、hbase读优化 客户端优化 1、scan缓存是否设置合理? 优化原理:一次scan请求,实际并不会一次就将所有数据加载到本地,而是多次RPC请求进行加载。默认100条数据大小。 优化建议:大scan场景下将scan缓存从100增大到500或者1000,以减少RPC次数 2、get请求是否可以使 阅读全文
posted @ 2019-03-04 16:37 xiaolaotou 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 解决方式步骤: 1、进入hdfs的pod kubectl get pod -o wide | grep hdfs kubectl exec -ti hadoop-hdfs-namenode-hdfs1-948569108-c5d70 bash 2、获取票据 kinit -kt /etc/hdfs1/ 阅读全文
posted @ 2019-02-22 11:26 xiaolaotou 阅读(2521) 评论(0) 推荐(1) 编辑
摘要: 一、获取pod信息 1、获取当前集群运行的所有的pods的信息 kubectl get pod kubectl get pod 2、获取当前集群运行的所有的pod运行在哪个节点 kubectl get pods -owide kubectl get pods -owide 3、未显示指定的names 阅读全文
posted @ 2019-02-22 11:07 xiaolaotou 阅读(2939) 评论(0) 推荐(0) 编辑
摘要: 远程连接MySql数据库时: ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) 远程连接被拒绝; 解决方法: MySQL> use MySQL; Database changed M 阅读全文
posted @ 2019-02-22 11:01 xiaolaotou 阅读(2949) 评论(0) 推荐(0) 编辑