高兴的博客 - 博客园

2015年11月2日

摘要：最近一直在银行做历史数据平台的项目，目前整个项目处于收尾的阶段，也好有时间整理下在项目中的一些收获。该历史数据平台使用spark+Nosql架构了，Nosql提供了海量数据的实时查询，而spark提供了sql支持，最开始给客户设计方案的时候，对spark sql也不是很熟悉，只知道它的thrift 阅读全文

posted @ 2015-11-02 22:45 高兴的博客阅读(6937) 评论(0) 推荐(0) 编辑

2015年10月28日

使用python进行数据转码

摘要：大数据最烦的就是数据质量差，为了把数据导入到sequoiadb中，需要要求文本是UTF-8模式的，使用enca查看文件编码是gb2312，然后是enca转utf-8报错。google了整个地球都不知道原因，尝试使用python进行转码# -*- coding: utf-8 -*-import cod... 阅读全文

posted @ 2015-10-28 18:12 高兴的博客阅读(2021) 评论(1) 推荐(0) 编辑

对Spark的理解

摘要： Spark作为一个新的分布式计算引擎正慢慢流行起来，越来越来的企业也准备用它的替换MapReduce,根据自己在工作的一些体会谈谈的优势。分布式计算归根到底还是一个Map和Reduce操作，Map操作对每个数据块进行计算，Reduce操作对结果进行汇总，现在一些NoSQL分布式数据库其实也是这么一阅读全文

posted @ 2015-10-28 11:28 高兴的博客阅读(2141) 评论(0) 推荐(1) 编辑

2015年10月25日

scala的map的操作

摘要： 1：map和模式匹配的结合 2：map转成array 阅读全文

posted @ 2015-10-25 19:53 高兴的博客阅读(1321) 评论(0) 推荐(0) 编辑

2015年10月23日

Hadoop的Writerable在Spark无法序列化的问题

摘要： Spark序列化这块网上讲的比较少，自己还没来得及看这块代码，今天编程的时候遇到一个Hadoop的Writerable实现在Spark无法序列化的问题。我的代码如下：这块代码执行报了如下错误。因为Spark默认使用Java的序列化，而Writeable没有实现序列化接口，导致整个问题的发生。通过阅读全文

posted @ 2015-10-23 14:28 高兴的博客阅读(864) 评论(0) 推荐(0) 编辑

2015年9月29日

Spark Streaming的容错和数据无丢失机制

摘要：背景 Write Ahead Logs Write Ahead Logs 配置实现细节下面讲解下WAL的工作原理。过一下Spark Streaming的架构当一个Spark Streaming应用启动了(例如driver启动), 相应的StreamingContext使用SparkContet 阅读全文

posted @ 2015-09-29 19:34 高兴的博客阅读(7240) 评论(0) 推荐(1) 编辑

2015年9月24日

spark 1.5的hivecontext的问题

摘要： spark升级到1.5，里面的hive版本升级到1.2.1版本,我写了如下的代码当依赖的版本是1.5时候，hivecontext不会加载resources里面的hive-site.xml ,我试验了下实例化hiveconf 可以加载。当依赖的版本是1.4.1的时候，这个时候hivecontext 阅读全文

posted @ 2015-09-24 11:50 高兴的博客阅读(477) 评论(0) 推荐(0) 编辑

2015年9月14日

Spark的广播变量模块

摘要：有人问我，如果让我设计广播变量该怎么设计，我想了想说，为啥不用zookeeper呢？对啊，为啥不用zookeeper，也许spark的最初设计哲学就是尽量不使用别的组件，他有自己分布式内存文件系统，有自己的任务调度（standalone),有自己的sql解析。好吧这也是我喜欢他的地方，一栈式解决方阅读全文

posted @ 2015-09-14 11:31 高兴的博客阅读(277) 评论(0) 推荐(0) 编辑

Spark的Rpct模块的学习

摘要： Spark的Rpc模块是1.x重构出来可，以前的代码中大量使用了akka的类，为了把akka从项目的依赖中移除，所有添加了该模块。先看下该模块的几个主要的类使用EA把该模块所有的类都添加进来了要看懂该模块还是要先了解akka, akka有Actor和ActorRef两个类，一个用于接收消息，一个阅读全文

posted @ 2015-09-14 00:05 高兴的博客阅读(3973) 评论(0) 推荐(0) 编辑

2015年9月13日

转/keystore和truststore的区别

摘要： keytool是java自带的工具用于产生密钥 keystore可以看成一个放key的库，key就是公钥，私钥，数字签名等组成的一个信息。 truststore是放信任的证书的一个store. 那他们之间有啥关系和联系呢？在一个安全链接的模型中又各自起到什么作用呢？其实我也没搞太清楚-_-b 我先阅读全文

posted @ 2015-09-13 18:24 高兴的博客阅读(10406) 评论(0) 推荐(0) 编辑

高兴

谨言慎行,格物致知

公告