2020年9月13日

flink1.11.1 从源码看table api以及表达式的问题

摘要: 想玩一下flink1.11全新的table api,发觉全是坑啊,不知道是因为我新手哪里使用不对,还是flink开发者的疏忽导致的BUG。 table api新特性 在flink1.11中,单纯的sql字符串对字段的操作已经被标记为过时,看一下部分源码: /** * Performs a selec 阅读全文

posted @ 2020-09-13 11:20 SaltFishYe 阅读(690) 评论(0) 推荐(0) 编辑

2020年8月16日

flink1.11.1,全新的table api

摘要: 最新在自学flink,直接上的最新版,学到了table api,发现flink1.11/.1版本和flink1.10.1版本有很大差别。因为是新版本目前网上资料也不多,我通过查阅官网和自己编码运行,简单写了个demo分享和讲解一下。 新api提供的TableEnvironment接口,直接提供了接受 阅读全文

posted @ 2020-08-16 15:54 SaltFishYe 阅读(1200) 评论(0) 推荐(0) 编辑

2020年8月1日

elasticsearch学习笔记——DSL查询

摘要: 基于elasticsearch7.8.0,指令来自官网。个人笔记,备忘。 批操作 POST /_bulk POST /<index>/_bulk POST _bulk { "index" : { "_index" : "test", "_id" : "1" } } { "field1" : "val 阅读全文

posted @ 2020-08-01 20:21 SaltFishYe 阅读(480) 评论(0) 推荐(0) 编辑

2020年6月29日

MapReduce模型中数据关联使用or语句导致计算效率低下

摘要: 简介 MapReduce计算模型中,如果两个数据集的关联,并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联,那么会导致大量数据分发到一个节点计算,使其效率极其低下。 这里的MapReduce并不是仅仅是hive中的mapreduce模型,而是计算思想模型,比如spark、flink等,甚至 阅读全文

posted @ 2020-06-29 23:50 SaltFishYe 阅读(301) 评论(1) 推荐(0) 编辑

2020年6月21日

jdk1.8观察者、被观察者,其设计在个人理解更适合批处理

摘要: 继去年写得jdk1.8观察者、被观察者文章(https://www.cnblogs.com/SaltFishYe/p/11619402.html)之后,有了点新想法。 背景 使用源码的观察者和被观察者呢是之前和同时开发一个类似数据处理的中间件的玩意,从最初的架构设计的讨论到从0开发,其中有过2个废气 阅读全文

posted @ 2020-06-21 14:22 SaltFishYe 阅读(152) 评论(0) 推荐(0) 编辑

2020年5月5日

oracle merge into在大数据离线批处理中的应用

摘要: 前言 目前仅在一家公司做过大数据相关,也不太清楚其他公司情况。东家这常用的大数据离线处理基本就是sqoop导入到hive中,然后使用spark或者hive计算出结果再导出到oracle中。很多情况下是把oracle中整个表或者某个时间条件的筛选出来的数据整个删掉,再把最新的这部分数据全部导数回到or 阅读全文

posted @ 2020-05-05 21:30 SaltFishYe 阅读(488) 评论(0) 推荐(0) 编辑

2019年10月7日

复杂java分布式系统需注意GC导致jvm暂停时间过长

摘要: 前言 一般来说分布式系统都会用zookeeper做协调操作,无论怎样的分布式协作方案分布式主机之间的联系一般通过发送心跳信息来通知自身节点的存活,那么问题就来了,如果复杂系统产生了大量java对象会导致频繁GC甚至长时间GC,这时候JVM会暂停,如果这个时候心跳连接超时,对于一个高容错的完善的分布式 阅读全文

posted @ 2019-10-07 20:24 SaltFishYe 阅读(803) 评论(0) 推荐(0) 编辑

2019年10月3日

jdk1.8观察者、被观察者类源码解读,通知方法是线程不安全方法,慎用!

摘要: 看源码通知观察者的方法 1 public void notifyObservers(Object arg) { 2 /* 3 * a temporary array buffer, used as a snapshot of the state of 4 * current Observers. 5 阅读全文

posted @ 2019-10-03 11:23 SaltFishYe 阅读(257) 评论(2) 推荐(0) 编辑

2019年9月7日

大数据量查询并导出文件的功能实现

摘要: 最近产品要求实现一个大数据量生产文件并提供下载的功能,重点是避免OOM并且尽可能的快。 1 设计思路 a 考虑OOM上,考虑系统并发情况,很简单的做法就是处理请求时,将业务逻辑放到线程池中执行。 b 其次一个web系统,对于客户端的请求要考虑响应时间,不能时间过长。 结合以上两点考虑可采用异步处理方 阅读全文

posted @ 2019-09-07 23:32 SaltFishYe 阅读(1104) 评论(0) 推荐(0) 编辑

2019年5月18日

Casf基于矩阵进行余弦相似度计算的项目

摘要: 本人自己做的一个玩意,地址https://github.com/SaltFishYe/Casf 基于scala语言开发,sparkSQL实现运算逻辑。 通过输入向量元素,对向量间的余弦相似度进行计算,可计算稀疏矩阵和满元素的矩阵。 余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度 阅读全文

posted @ 2019-05-18 15:31 SaltFishYe 阅读(653) 评论(0) 推荐(0) 编辑

导航