摘要:
什么是Spark? 关于Spark具体的定义,大家可以去阅读官网或者百度关于Spark的词条,在此不再赘述。从一个野生程序猿的角度去理解,作为大数据时代的一个准王者,Spark是一款主流的高性能分布式计算大数据框架之一,和MapReduce,Hive,Flink等其他大数据框架一起支撑了大数据处理方 阅读全文
摘要:
Spark DataFrame一定比Spark RDD快?NO 阅读全文
摘要:
想必大家都知道可以通过多进程或者多线程的方式实现异步。 PHP多进程编程当前主要有这几种方式, 1>基于pcntl实现多进程,这也是PHP自带的多进程玩法 2>Swoole自己修改PHP内核代码,从而实现多进程,这个看起来比较新 PHP基于pcntl封装的多进程或者进程池也有很多第三方库,今天分享下 阅读全文
摘要:
先说个伤心的事情,深圳某9年码农2周前失业了。在家待业,面试也懒得参加,坐吃山空。 有鉴于此,突然想起读书那会参加了一些竞赛活动,每个参赛选手需要在给定的时间内做一篇全英文演讲。 倒计时30秒的时候开始有声音提醒,时间到了之后,会弹出一个演讲结束图片。 总结一下需求: 1,倒计时开始按钮,和退出应用 阅读全文
摘要:
最近闲来无事,于是封装了goroutine常用到的一个场景:chan + sync.WaitGroup,实现控制goroutine并发和等待任务执行完毕。 当然,也有其他现成的库实现该功能,比如ants。 gpool.go // gpool -> goroutine pool with wait p 阅读全文
摘要:
一般打包java项目的时候,考虑到依赖比较大,所以一般打包都不带依赖。 ###如果在pom指定了mainclass,运行如下 nohup java -Dloader.path=lib -jar demo.jar >> app.log & ###如果没有指定mainclass,上述方式运行会导致找不到 阅读全文
摘要:
折腾了好几天,终于搞定了Flink run提交参数,记录一下。 背景: 之前一直报错,akka,AskTimeoutException,尝试添加akka.ask.timeout=120000s, 依然显示该错误。 后来在Flink官网找到了该参数的赋值方式,注意这里有个大坑,数字和时间单位之间,必须 阅读全文
摘要:
今天用SparkSQL保存一份json数据的时候,引号被转义了,并用括号包起来了,导致下游新来的小伙伴无法处理这份数据。 保存后的数据长这样(用\t分割): data "{\"key\": \"impl\", \"version\": \"1.0\"}" 于是乎一番查找Spark文档,尝试添加这个选 阅读全文
摘要:
俗话说得好,磨刀不误砍柴工,献上一副来自国家5A级风景区美景图。 述说正传,接下来开始说正事。 以前用Python和Scala操作Spark的时候比较多,毕竟Python和Scala代码写起来要简洁很多。 今天一起来看看Java版本怎么创建DataFrame,代码写起来其实差不多,毕竟公用同一套AP 阅读全文
摘要:
最近碰到一个场景,需要在Scala里面判断json里面是否存在某个key。如果用fastjson,判断key是否存在很简单,直接containsKey即可。但是项目用的是json4s这个库,用法稍微有些不同,特此记录一下。代码如下: package dev.json import org.json4 阅读全文
摘要:
如题,采用json4s,scala删除json里面的key? 比如有这么一段json:{"@type":{"version":"1.0.2","name":"application-content","data":[]},"key-to-remove":[{"blah":"more blah"}], 阅读全文
摘要:
最近有个spark任务涉及到scala操作json,大概流程是这样:从hbase取数据,每条数据先parse json,然后删除一个多余的key,最后在弄成json字符串,输出到hdfs。 json大概长这样,{“@type”:{"version":"1.0.2","name":"applicati 阅读全文
摘要:
大多数编程语言都会有多线程和多进程的概念,至于线程和进程的概念,大家可以百度一下。 作为一门胶水语言,Python毫不意外,也可以利用多线程和多进程处理并发问题,但是多线程由于GIL的存在,起作用范围大打折扣,仅限于在IO等场景可以发挥点作用。 所以,今天要跟大家分享的是Python多进程方案,更好 阅读全文