2019 年 2月随笔档案 - wwcom123

【Spark调优】：RDD持久化策略

摘要：【场景】 Spark对RDD执行一系列算子操作时，都会重新从头到尾计算一遍。如果中间结果RDD后续需要被被调用多次，可以显式调用 cache()和 persist()，以告知 Spark，临时保存之前的计算结果，这样后续多个RDD使用时，就不用重新计算该临时结果了，从而节约计算资源。要注意cach 阅读全文

posted @ 2019-02-28 10:52 wwcom123 阅读(955) 评论(0) 推荐(0)

【ElasticSearch】：QueryDSL

摘要：Search API Search API URI Search URI Search Response Body Search Response Body Search Query DSL Query DSL Response Body Search使用Query DSL语句，相对URI Sear 阅读全文

posted @ 2019-02-23 23:18 wwcom123 阅读(859) 评论(0) 推荐(0)

【ElasticSearch】：Mapping相关

摘要：Mapping Mapping 类似数据库中的表结构定义，主要作用如下：查看一个Index的Mapping的API 查看一个Index的Mapping的API 例如查看index为test_index的mapping，使用_mapping，查询结果中： doc是这个index的type，忽略，ES 阅读全文

posted @ 2019-02-22 23:03 wwcom123 阅读(462) 评论(0) 推荐(0)

【ElasticSearch】：索引Index、文档Document、字段Field

摘要：因为从ElasticSearch6.X开始，官方准备废弃Type了。对应数据库，对ElasticSearch的理解如下：索引Index 由具有相同结构(字段Field)的文档Document组成。每个索引都有自己的mapping定义，用于定义字段名和类型。文档Document 用户存储在es中的阅读全文

posted @ 2019-02-21 00:54 wwcom123 阅读(4994) 评论(0) 推荐(0)

【Spark基础】：RDD

摘要：我的代码实践：https://github.com/wwcom614/Spark 1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布阅读全文

posted @ 2019-02-20 23:12 wwcom123 阅读(294) 评论(0) 推荐(0)

【Spark算子】：reduceByKey、groupByKey和combineByKey

摘要：在spark中，reduceByKey、groupByKey和combineByKey这三种算子用的较多，结合使用过程中的体会简单总结：我的代码实践：https://github.com/wwcom614/Spark •reduceByKey 用于对每个key对应的多个value进行merge操作阅读全文

posted @ 2019-02-18 22:43 wwcom123 阅读(1400) 评论(0) 推荐(0)

wwcom123

02 2019 档案

公告