上一页 1 2 3 4 5 6 7 ··· 16 下一页

2015年10月2日

【转载】Spark SQL之External DataSource外部数据源

摘要: http://blog.csdn.net/oopsoom/article/details/42061077一、Spark SQL External DataSource简介 随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让... 阅读全文

posted @ 2015-10-02 11:53 白乔 阅读(3210) 评论(1) 推荐(1) 编辑

2015年8月20日

Hive over HBase和Hive over HDFS性能比较分析

摘要: http://superlxw1234.iteye.com/blog/2008274环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.... 阅读全文

posted @ 2015-08-20 20:56 白乔 阅读(480) 评论(0) 推荐(0) 编辑

hive与hbase集成

摘要: http://blog.csdn.net/vah101/article/details/22597341这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表,进行读(select)、写(insert)操作。它甚至可以基于join、union操作对hbase表和hiv... 阅读全文

posted @ 2015-08-20 20:49 白乔 阅读(298) 评论(0) 推荐(0) 编辑

2015年8月5日

基于spark实现表的join操作

摘要: 1. 自连接假设存在如下文件:[root@bluejoe0 ~]# cat categories.csv 1,生活用品,02,数码用品,13,手机,24,华为Mate7,3每一行的格式为:类别ID,类别名称,父类ID现在欲输出每个类别的父类别的名称,类似于SQL的自连接,注意到joi... 阅读全文

posted @ 2015-08-05 23:39 白乔 阅读(467) 评论(0) 推荐(0) 编辑

关于IO的一些数字

摘要: http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/people/jeff/stanford-295-talk.pdf 阅读全文

posted @ 2015-08-05 22:44 白乔 阅读(148) 评论(0) 推荐(0) 编辑

2015年8月2日

scala的REPL shell的调用

摘要: 最近突然对spark的spark-shell发生了兴趣 它是如何启动scala的REPL的,并且在此前写入了常用的环境变量的呢? 通过查看spark的源码,找到了SparkILoop.scalaimport scala.tools.nsc.interpreter.{JPrintWri... 阅读全文

posted @ 2015-08-02 21:51 白乔 阅读(1153) 评论(0) 推荐(0) 编辑

2015年6月23日

搭建eclipse+maven+scala-ide的scala web开发环境

摘要: http://www.tuicool.com/articles/NBzAzy江湖传闻,scala开发的最佳利器乃JetBrains的神作IntelliJ IDEA,外加构建工具sbt是也。但因历史原因,项目组成员对Eclipse+Maven组合更为熟悉,为了快速实现项目原型,不增加不确定因素带来的风... 阅读全文

posted @ 2015-06-23 21:54 白乔 阅读(472) 评论(0) 推荐(0) 编辑

2015年4月3日

Apache Mesos总体架构

摘要: http://developer.51cto.com/art/201401/426507.htm1. 前言同其他大部分分布式系统一样,Apache Mesos为了简化设计,也是采用了master/slave结构,为了解决master单点故障,将master做得尽可能地轻量级,其上面所有的元数 据可以... 阅读全文

posted @ 2015-04-03 16:53 白乔 阅读(363) 评论(0) 推荐(0) 编辑

2015年3月29日

spark下测试akka的分布式通讯功能

摘要: 采用的spark版本为1.1.0scala版本为2.10.4编写scala类文件myactors.scala:package bluejoeimport akka.actor._import com.typesafe.config.ConfigFactoryimport akka.remote.Re... 阅读全文

posted @ 2015-03-29 21:38 白乔 阅读(285) 评论(0) 推荐(0) 编辑

2015年3月28日

akka创建actor时报错:IllegalArgumentException: no matching constructor found on class $iwC$$iwC$$iwC$$iwC$

摘要: 在spark-shell中输入范例中的代码:import akka.actor.Actorimport akka.actor.Propsimport akka.event.Logging class MyActor extends Actor { val log = Logging(context... 阅读全文

posted @ 2015-03-28 22:09 白乔 阅读(833) 评论(0) 推荐(0) 编辑

2015年3月26日

akka构建简单分布式应用

摘要: http://www.cnblogs.com/hequn/articles/3764630.html当程序的要求达到一台计算机的极限时,我们便需要将程序分布式化,让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path ... 阅读全文

posted @ 2015-03-26 18:06 白乔 阅读(366) 评论(0) 推荐(0) 编辑

Memcached 工作原理

摘要: http://hzp.iteye.com/blog/1872664Memcached处理的原子是每一个(key,value)对(以下简称kv对),key会通过一个hash算法转化成hash-key,便于查找、对比以及做到尽可能的散列。同时,memcached用的是一个二级散列,通过一张大hash表来... 阅读全文

posted @ 2015-03-26 09:39 白乔 阅读(125) 评论(0) 推荐(0) 编辑

2015年3月24日

分析Redis架构设计

摘要: http://blog.csdn.net/a600423444/article/details/8944601一、前言因为近期项目中开始使用Redis,为了更好的理解Redis并应用在适合的业务场景,需要对Redis设计与实现深入的理解。我分析流程是按照从main进入,逐步深入分析Redis的启动流... 阅读全文

posted @ 2015-03-24 14:44 白乔 阅读(232) 评论(0) 推荐(0) 编辑

2015年3月17日

Hive体系结构介绍

摘要: http://www.aboutyun.com/thread-6217-1-1.html1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cl... 阅读全文

posted @ 2015-03-17 13:58 白乔 阅读(1052) 评论(0) 推荐(0) 编辑

2015年3月16日

学习GraphX

摘要: 首先准备如下社交图形数据:打开spark-shell;导入相关包:import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDD创建如上graph对象:// Create an RDD ... 阅读全文

posted @ 2015-03-16 16:50 白乔 阅读(484) 评论(0) 推荐(0) 编辑

2015年3月12日

hadoop vs spark

摘要: http://www.zhihu.com/question/26568496#answer-12035815Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。HDFS,在由普通PC组成的... 阅读全文

posted @ 2015-03-12 15:06 白乔 阅读(301) 评论(0) 推荐(0) 编辑

BSP模型

摘要: http://www.uml.org.cn/yunjisuan/201212191.aspHama中最关键的就是BSP(Bulk Synchronous Parallel-“大型”同步模型)模型, BSP的概念由Valiant(1990)提出的,“块”同步模型,是一种异步MIMD-DM模型,支持消息... 阅读全文

posted @ 2015-03-12 11:29 白乔 阅读(1210) 评论(0) 推荐(0) 编辑

spark向量、矩阵类型

摘要: 先来个普通的数组:scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)可以将它转换成一个Vector:scala> import org.apache.spark.mllib.lin... 阅读全文

posted @ 2015-03-12 10:05 白乔 阅读(671) 评论(0) 推荐(0) 编辑

2015年3月11日

“换位思考”帮你做好部门主管

摘要: 最近遇到几个同事,谈及对主管工作的一些手足无措,我倒是一直没感觉到真有多难,说起诀窍,我想主要还是靠“换位思考”吧!说到底,就是要跳出来,审视自己的角色定位。当然,“换位思考”同样适用于不同岗位的人,这里我主要针对业务主管的岗位说点废话。业务主管,对下带团队,带1个小组,或者带N个小组,对上向老板(... 阅读全文

posted @ 2015-03-11 14:06 白乔 阅读(261) 评论(0) 推荐(0) 编辑

2015年3月10日

spark处理jsonFile

摘要: 按照spark的说法,这里的jsonFile是特殊的文件:Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, sel... 阅读全文

posted @ 2015-03-10 13:22 白乔 阅读(1052) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 16 下一页

导航