摘要: 单机文本数据处理,常用AWK,总结一下AWK最常用的要点,备忘备查。 1.What is AWK(1)Aho、Weinberger、Kernighan三位发明者名字首字母;(2)一个行文本处理工具; 2.How to use AWK2.1 处理方式:逐行处理文件中的数据 2.2语法: awk 'pa 阅读全文
posted @ 2019-03-02 10:09 wwcom123 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 【场景】 Spark对RDD执行一系列算子操作时,都会重新从头到尾计算一遍。如果中间结果RDD后续需要被被调用多次,可以显式调用 cache()和 persist(),以告知 Spark,临时保存之前的计算结果,这样后续多个RDD使用时,就不用重新计算该临时结果了,从而节约计算资源。 要注意cach 阅读全文
posted @ 2019-02-28 10:52 wwcom123 阅读(925) 评论(0) 推荐(0) 编辑
摘要: Search API Search API URI Search URI Search Response Body Search Response Body Search Query DSL Query DSL Response Body Search使用Query DSL语句,相对URI Sear 阅读全文
posted @ 2019-02-23 23:18 wwcom123 阅读(825) 评论(0) 推荐(0) 编辑
摘要: Mapping Mapping 类似数据库中的表结构定义,主要作用如下: 查看一个Index的Mapping的API 查看一个Index的Mapping的API 例如查看index为test_index的mapping,使用_mapping,查询结果中: doc是这个index的type,忽略,ES 阅读全文
posted @ 2019-02-22 23:03 wwcom123 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 因为从ElasticSearch6.X开始,官方准备废弃Type了。对应数据库,对ElasticSearch的理解如下: 索引Index 由具有相同结构(字段Field)的文档Document组成。每个索引都有自己的mapping定义,用于定义字段名和类型。 文档Document 用户存储在es中的 阅读全文
posted @ 2019-02-21 00:54 wwcom123 阅读(4909) 评论(0) 推荐(0) 编辑
摘要: 我的代码实践:https://github.com/wwcom614/Spark 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布 阅读全文
posted @ 2019-02-20 23:12 wwcom123 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 在spark中,reduceByKey、groupByKey和combineByKey这三种算子用的较多,结合使用过程中的体会简单总结: 我的代码实践:https://github.com/wwcom614/Spark •reduceByKey 用于对每个key对应的多个value进行merge操作 阅读全文
posted @ 2019-02-18 22:43 wwcom123 阅读(1298) 评论(0) 推荐(0) 编辑
摘要: 时序图表达了类之间调用关系,以及调用时序关系。 Actor: 调用者实例化类的对象,执行者。 Lifeline: 生命线,竖的虚线。上方方框是类名表示存在的时间,从上至下表示时间流逝。Lifeline上的细框表示该类每个方法被调用的存在时间。 message: 实线+实心箭头,表示同步调用消息。 实 阅读全文
posted @ 2018-12-01 23:21 wwcom123 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 1 实线/虚线 + 三角空心箭头: 继承extends:实线,三角空心箭头指向父类,子类指向父类,子类 is a 父类。 实现implements:虚线,三角空心箭头指向接口,类指向接口,类 实现 接口方法。 2 实线/虚线 + 箭头: 关联:实线,一个类中有另一个类对象做属性(成员变量),箭头指向 阅读全文
posted @ 2018-12-01 22:57 wwcom123 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 相同点: 两者都是可重入锁,同一个线程每进入一次,锁的计数器都自增1,等到锁的计数器下降为0时才能释放锁。 底层实现对比: Synchronized是依赖于JVM实现的,而ReentrantLock是JDK实现的。 性能对比: Synchronized优化以前,性能比ReenTrantLock差很多 阅读全文
posted @ 2018-11-26 21:40 wwcom123 阅读(455) 评论(0) 推荐(0) 编辑