白乔 - 博客园

【转载】Spark SQL之External DataSource外部数据源

摘要： http://blog.csdn.net/oopsoom/article/details/42061077一、Spark SQL External DataSource简介随着Spark1.2的发布，Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口，来让... 阅读全文

posted @ 2015-10-02 11:53 白乔阅读(3231) 评论(1) 推荐(1) 编辑

Hive over HBase和Hive over HDFS性能比较分析

摘要： http://superlxw1234.iteye.com/blog/2008274环境配置：hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.... 阅读全文

posted @ 2015-08-20 20:56 白乔阅读(480) 评论(0) 推荐(0) 编辑

hive与hbase集成

摘要： http://blog.csdn.net/vah101/article/details/22597341这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表，进行读（select）、写（insert）操作。它甚至可以基于join、union操作对hbase表和hiv... 阅读全文

posted @ 2015-08-20 20:49 白乔阅读(304) 评论(0) 推荐(0) 编辑

基于spark实现表的join操作

摘要： 1. 自连接假设存在如下文件：[root@bluejoe0 ~]# cat categories.csv 1,生活用品,02,数码用品,13,手机,24,华为Mate7,3每一行的格式为：类别ID，类别名称，父类ID现在欲输出每个类别的父类别的名称，类似于SQL的自连接，注意到joi... 阅读全文

posted @ 2015-08-05 23:39 白乔阅读(471) 评论(0) 推荐(0) 编辑

关于IO的一些数字

摘要： http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/people/jeff/stanford-295-talk.pdf 阅读全文

posted @ 2015-08-05 22:44 白乔阅读(150) 评论(0) 推荐(0) 编辑

scala的REPL shell的调用

摘要：最近突然对spark的spark-shell发生了兴趣它是如何启动scala的REPL的，并且在此前写入了常用的环境变量的呢？通过查看spark的源码，找到了SparkILoop.scalaimport scala.tools.nsc.interpreter.{JPrintWri... 阅读全文

posted @ 2015-08-02 21:51 白乔阅读(1155) 评论(0) 推荐(0) 编辑

搭建eclipse+maven+scala-ide的scala web开发环境

摘要： http://www.tuicool.com/articles/NBzAzy江湖传闻，scala开发的最佳利器乃JetBrains的神作IntelliJ IDEA，外加构建工具sbt是也。但因历史原因，项目组成员对Eclipse+Maven组合更为熟悉，为了快速实现项目原型，不增加不确定因素带来的风... 阅读全文

posted @ 2015-06-23 21:54 白乔阅读(475) 评论(0) 推荐(0) 编辑

Apache Mesos总体架构

摘要： http://developer.51cto.com/art/201401/426507.htm1. 前言同其他大部分分布式系统一样，Apache Mesos为了简化设计，也是采用了master/slave结构，为了解决master单点故障，将master做得尽可能地轻量级，其上面所有的元数据可以... 阅读全文

posted @ 2015-04-03 16:53 白乔阅读(365) 评论(0) 推荐(0) 编辑

spark下测试akka的分布式通讯功能

摘要：采用的spark版本为1.1.0scala版本为2.10.4编写scala类文件myactors.scala：package bluejoeimport akka.actor._import com.typesafe.config.ConfigFactoryimport akka.remote.Re... 阅读全文

posted @ 2015-03-29 21:38 白乔阅读(285) 评论(0) 推荐(0) 编辑

akka创建actor时报错：IllegalArgumentException: no matching constructor found on class $iwC$$iwC$$iwC$$iwC$

摘要：在spark-shell中输入范例中的代码：import akka.actor.Actorimport akka.actor.Propsimport akka.event.Logging class MyActor extends Actor { val log = Logging(context... 阅读全文

posted @ 2015-03-28 22:09 白乔阅读(845) 评论(0) 推荐(0) 编辑

akka构建简单分布式应用

摘要： http://www.cnblogs.com/hequn/articles/3764630.html当程序的要求达到一台计算机的极限时，我们便需要将程序分布式化，让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path　... 阅读全文

posted @ 2015-03-26 18:06 白乔阅读(366) 评论(0) 推荐(0) 编辑

Memcached 工作原理

摘要： http://hzp.iteye.com/blog/1872664Memcached处理的原子是每一个（key，value）对（以下简称kv对），key会通过一个hash算法转化成hash-key，便于查找、对比以及做到尽可能的散列。同时，memcached用的是一个二级散列，通过一张大hash表来... 阅读全文

posted @ 2015-03-26 09:39 白乔阅读(128) 评论(0) 推荐(0) 编辑

分析Redis架构设计

摘要： http://blog.csdn.net/a600423444/article/details/8944601一、前言因为近期项目中开始使用Redis，为了更好的理解Redis并应用在适合的业务场景，需要对Redis设计与实现深入的理解。我分析流程是按照从main进入，逐步深入分析Redis的启动流... 阅读全文

posted @ 2015-03-24 14:44 白乔阅读(233) 评论(0) 推荐(0) 编辑

Hive体系结构介绍

摘要： http://www.aboutyun.com/thread-6217-1-1.html1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cl... 阅读全文

posted @ 2015-03-17 13:58 白乔阅读(1070) 评论(0) 推荐(0) 编辑

学习GraphX

摘要：首先准备如下社交图形数据：打开spark-shell；导入相关包：import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDD创建如上graph对象：// Create an RDD ... 阅读全文

posted @ 2015-03-16 16:50 白乔阅读(484) 评论(0) 推荐(0) 编辑

hadoop vs spark

摘要： http://www.zhihu.com/question/26568496#answer-12035815Hadoop首先看一下Hadoop解决了什么问题，Hadoop就是解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。HDFS，在由普通PC组成的... 阅读全文

posted @ 2015-03-12 15:06 白乔阅读(304) 评论(0) 推荐(0) 编辑

BSP模型

摘要： http://www.uml.org.cn/yunjisuan/201212191.aspHama中最关键的就是BSP(Bulk Synchronous Parallel-“大型”同步模型)模型, BSP的概念由Valiant(1990)提出的，“块”同步模型，是一种异步MIMD-DM模型，支持消息... 阅读全文

posted @ 2015-03-12 11:29 白乔阅读(1226) 评论(0) 推荐(0) 编辑

spark向量、矩阵类型

摘要：先来个普通的数组：scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)可以将它转换成一个Vector：scala> import org.apache.spark.mllib.lin... 阅读全文

posted @ 2015-03-12 10:05 白乔阅读(674) 评论(0) 推荐(0) 编辑

“换位思考”帮你做好部门主管

摘要：最近遇到几个同事，谈及对主管工作的一些手足无措，我倒是一直没感觉到真有多难，说起诀窍，我想主要还是靠“换位思考”吧！说到底，就是要跳出来，审视自己的角色定位。当然，“换位思考”同样适用于不同岗位的人，这里我主要针对业务主管的岗位说点废话。业务主管，对下带团队，带1个小组，或者带N个小组，对上向老板（... 阅读全文

posted @ 2015-03-11 14:06 白乔阅读(262) 评论(0) 推荐(0) 编辑

spark处理jsonFile

摘要：按照spark的说法，这里的jsonFile是特殊的文件：Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, sel... 阅读全文

posted @ 2015-03-10 13:22 白乔阅读(1057) 评论(0) 推荐(0) 编辑