该文被密码保护。 阅读全文
摘要:
一、UDF相关概念 UDF,用户自定义函数,可以直接在SQL语句中计算的函数:三个优点: UDF 存放在内存中, 设计不当将导致系统的崩溃, 所以必须在必要的时候实施优化。 对 UDF 的优化是通过手动改写原来的 UDF 代码实现的, 主要有以下两种场景: 1) 如果 UDF 嵌套过于复杂, 可以重 阅读全文
摘要:
一、MapReduce概念 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词, 一是软件框架,二是并行处理,三是可靠且 阅读全文
摘要:
一、精确定位到有问题的shards 1、查看哪些分片未被分配 2、如果您运行的是Elasticsearch的5+版本,您还可以使用群集分配说明API来尝试获取有关分片分配问题的更多信息: 生成的输出将提供有关群集中某些分片未分配的原因的有用详细信息: 二、Elasticsearch中解析未分配的各个 阅读全文
摘要:
简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 一、Receiver方式: 使用kafka的高层次Consumer api来实现的,Receiver从kafka中获取的数据都是存储在spark executor的内 阅读全文