摘要: RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, filter, groupBy等),通过这种转换操作,新的R 阅读全文
posted @ 2016-06-20 11:22 Sharkd 阅读(1359) 评论(0) 推荐(0) 编辑
摘要: 当前无论是学术界还是工业界,深度学习都受到极大的追捧,尤其是在Google开源深度学习平台TensorFlow之后,更是给深度学习火上浇油。目前在开源社区Github上所有开源项目中,TensorFlow最为活跃,从推出到现在,经历了几个版本的演进,可以说能够灵活高效地解决大量实际问题。本文主要尝试 阅读全文
posted @ 2016-06-20 11:20 Sharkd 阅读(3581) 评论(0) 推荐(0) 编辑
摘要: 在用spark读写hdfs数据时,有时候当前用户对要读写的hdfs路径没有权限,需要临时改变用户去读写hdfs,操作完后回到原来的用户。我们的hdfs是没有权限认证的,一开始通过下面代码的方式来实现... http://sharkdtu.com/posts/tmp hadoop ugi using. 阅读全文
posted @ 2016-06-20 11:16 Sharkd 阅读(1240) 评论(0) 推荐(0) 编辑
摘要: 我们知道,scala编译器会将scala代码编译成JVM字节码,编译过程中会擦除scala特有的一些类型信息,在scala 2.10以前,只能在scala中利用java的反射机制,但是通过java反射机制得到的是只是擦除后的类型信息,并不包括scala的一些特定类型信息。从scala 2.10起,s 阅读全文
posted @ 2016-06-20 11:15 Sharkd 阅读(3122) 评论(0) 推荐(0) 编辑
摘要: 决策树是一种常见的分类与回归机器学习算法,由于其模型表达性好,便于理解,并能取得较好的效果,而受到广泛的应用。下图是一个简单的决策树,决策树每个非叶子节点包含一个条件,对于具有连续值的特征,该条件为一个上界,如果实例对应的特征值小于该上界则被划分到左子节点,否则被划分到右子节点,对于具有离散值的特征 阅读全文
posted @ 2016-06-20 11:13 Sharkd 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 对于很多刚接触Spark的人来说,可能主要关心数据处理的逻辑,而对于如何高效运行Spark应用程序了解较少。由于Spark是一种分布式内存计算框架,其性能往往受限于CPU、内存、网络等多方面的因素,对于用户来说,如何在有限的资源下高效地运行Spark应用程序显得尤为重要。下面只针对Spark On 阅读全文
posted @ 2016-06-20 11:12 Sharkd 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章中讲了 "akka actor的简单使用" ,那主要是展现了akka在一台机器上的并发应用,这一篇接着介绍akka remote使用,简单了解akka在不同机器上的并发应用。我们知道,在一台机器上是多个本地actor之间发送消息,那么如果是在多台机器上,则不同机器上的actor是通过网络 阅读全文
posted @ 2016-06-20 11:11 Sharkd 阅读(1166) 评论(0) 推荐(0) 编辑
摘要: 学习scala编程,不可避免的会接触到actor模式,它使得并发编程不再像噩梦般萦绕着开发者,Akka是actor的一个开源实现。由于本人水平有限,自认为还不能把actor设计思想讲明白,所以本文仅仅是一个使用akka actor的入门参考以及个人的入门心得,其具体原理及设计思想请参考相关资料,推荐 阅读全文
posted @ 2016-06-20 11:09 Sharkd 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 在学习一门新语言时,想必我们都是”Hello World”程序开始,类似地,分布式计算框架的一个典型实例就是WordCount程序,接触过Hadoop的人肯定都知道用MapReduce实现WordCount,当前内存分布式计算框架Spark因为其计算速度之快,并且可以部署到Hadoop YARN中运 阅读全文
posted @ 2016-06-20 11:04 Sharkd 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 对于一个刚开始学习Spark的人来说,当然首先需要把环境搭建好,再跑几个例子,目前比较流行的部署是Spark On Yarn,作为新手,我觉得有必要走一遍Hadoop的集群安装配置,而不仅仅停留在本地(local)模式下学习,因为集群模式下跨多台机器,环境相对来说更复杂,许多在本地(local)模式 阅读全文
posted @ 2016-06-20 11:03 Sharkd 阅读(129) 评论(0) 推荐(0) 编辑