02 2019 档案
摘要:【场景】 Spark对RDD执行一系列算子操作时,都会重新从头到尾计算一遍。如果中间结果RDD后续需要被被调用多次,可以显式调用 cache()和 persist(),以告知 Spark,临时保存之前的计算结果,这样后续多个RDD使用时,就不用重新计算该临时结果了,从而节约计算资源。 要注意cach
阅读全文
摘要:Search API Search API URI Search URI Search Response Body Search Response Body Search Query DSL Query DSL Response Body Search使用Query DSL语句,相对URI Sear
阅读全文
摘要:Mapping Mapping 类似数据库中的表结构定义,主要作用如下: 查看一个Index的Mapping的API 查看一个Index的Mapping的API 例如查看index为test_index的mapping,使用_mapping,查询结果中: doc是这个index的type,忽略,ES
阅读全文
摘要:因为从ElasticSearch6.X开始,官方准备废弃Type了。对应数据库,对ElasticSearch的理解如下: 索引Index 由具有相同结构(字段Field)的文档Document组成。每个索引都有自己的mapping定义,用于定义字段名和类型。 文档Document 用户存储在es中的
阅读全文
摘要:我的代码实践:https://github.com/wwcom614/Spark 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布
阅读全文
摘要:在spark中,reduceByKey、groupByKey和combineByKey这三种算子用的较多,结合使用过程中的体会简单总结: 我的代码实践:https://github.com/wwcom614/Spark •reduceByKey 用于对每个key对应的多个value进行merge操作
阅读全文