摘要:
最近一直在银行做历史数据平台的项目,目前整个项目处于收尾的阶段,也好有时间整理下在项目中的一些收获。 该历史数据平台使用spark+Nosql架构了,Nosql提供了海量数据的实时查询,而spark提供了sql支持,最开始给客户设计方案的时候,对spark sql也不是很熟悉,只知道它的thrift 阅读全文
摘要:
大数据最烦的就是数据质量差,为了把数据导入到sequoiadb中,需要要求文本是UTF-8模式的,使用enca查看文件编码是gb2312,然后是enca转utf-8报错。google了整个地球都不知道原因,尝试使用python进行转码# -*- coding: utf-8 -*-import cod... 阅读全文
摘要:
Spark作为一个新的分布式计算引擎正慢慢流行起来,越来越来的企业也准备用它的替换MapReduce,根据自己在工作的一些体会谈谈的优势。 分布式计算归根到底还是一个Map和Reduce操作,Map操作对每个数据块进行计算,Reduce操作对结果进行汇总,现在一些NoSQL分布式数据库其实也是这么一 阅读全文
摘要:
1:map和模式匹配的结合 2:map转成array 阅读全文
摘要:
Spark序列化这块网上讲的比较少,自己还没来得及看这块代码,今天编程的时候遇到一个Hadoop的Writerable实现在Spark无法序列化的问题。我的代码如下: 这块代码执行报了如下错误。 因为Spark默认使用Java的序列化,而Writeable没有实现序列化接口,导致整个问题的发生。通过 阅读全文
摘要:
背景 Write Ahead Logs Write Ahead Logs 配置 实现细节 下面讲解下WAL的工作原理。过一下Spark Streaming的架构 当一个Spark Streaming应用启动了(例如driver启动), 相应的StreamingContext使用SparkContet 阅读全文
摘要:
spark升级到1.5,里面的hive版本升级到1.2.1版本,我写了如下的代码 当依赖的版本是1.5时候,hivecontext不会加载resources里面的hive-site.xml ,我试验了下实例化hiveconf 可以加载。 当依赖的版本是1.4.1的时候,这个时候hivecontext 阅读全文
摘要:
有人问我,如果让我设计广播变量该怎么设计,我想了想说,为啥不用zookeeper呢? 对啊,为啥不用zookeeper,也许spark的最初设计哲学就是尽量不使用别的组件,他有自己分布式内存文件系统,有自己的任务调度(standalone),有自己的sql解析。好吧这也是我喜欢他的地方,一栈式解决方 阅读全文
摘要:
Spark的Rpc模块是1.x重构出来可,以前的代码中大量使用了akka的类,为了把akka从项目的依赖中移除,所有添加了该模块。先看下该模块的几个主要的类 使用EA把该模块所有的类都添加进来了 要看懂该模块还是要先了解akka, akka有Actor和ActorRef两个类,一个用于接收消息,一个 阅读全文
摘要:
keytool是java自带的工具用于产生密钥 keystore可以看成一个放key的库,key就是公钥,私钥,数字签名等组成的一个信息。 truststore是放信任的证书的一个store. 那他们之间有啥关系和联系呢?在一个安全链接的模型中又各自起到什么作用呢? 其实我也没搞太清楚-_-b 我先 阅读全文