Sharkd - 博客园

2016年6月20日

摘要： RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets)，它是一种分布式的内存抽象，表示一个只读的记录分区的集合，它只能通过其他RDD转换而创建，为此，RDD支持丰富的转换操作(如map, join, filter, groupBy等)，通过这种转换操作，新的R 阅读全文

posted @ 2016-06-20 11:22 Sharkd 阅读(1397) 评论(0) 推荐(0)

运用TensorFlow处理简单的NLP问题

摘要：当前无论是学术界还是工业界，深度学习都受到极大的追捧，尤其是在Google开源深度学习平台TensorFlow之后，更是给深度学习火上浇油。目前在开源社区Github上所有开源项目中，TensorFlow最为活跃，从推出到现在，经历了几个版本的演进，可以说能够灵活高效地解决大量实际问题。本文主要尝试阅读全文

posted @ 2016-06-20 11:20 Sharkd 阅读(3603) 评论(0) 推荐(0)

临时更换hadoop-ugi

摘要：在用spark读写hdfs数据时，有时候当前用户对要读写的hdfs路径没有权限，需要临时改变用户去读写hdfs，操作完后回到原来的用户。我们的hdfs是没有权限认证的，一开始通过下面代码的方式来实现... http://sharkdtu.com/posts/tmp hadoop ugi using. 阅读全文

posted @ 2016-06-20 11:16 Sharkd 阅读(1269) 评论(0) 推荐(0)

初识Scala反射

摘要：我们知道，scala编译器会将scala代码编译成JVM字节码，编译过程中会擦除scala特有的一些类型信息，在scala 2.10以前，只能在scala中利用java的反射机制，但是通过java反射机制得到的是只是擦除后的类型信息，并不包括scala的一些特定类型信息。从scala 2.10起，s 阅读全文

posted @ 2016-06-20 11:15 Sharkd 阅读(3135) 评论(0) 推荐(0)

MLlib决策树与集成树

摘要：决策树是一种常见的分类与回归机器学习算法，由于其模型表达性好，便于理解，并能取得较好的效果，而受到广泛的应用。下图是一个简单的决策树，决策树每个非叶子节点包含一个条件，对于具有连续值的特征，该条件为一个上界，如果实例对应的特征值小于该上界则被划分到左子节点，否则被划分到右子节点，对于具有离散值的特征阅读全文

posted @ 2016-06-20 11:13 Sharkd 阅读(379) 评论(0) 推荐(0)

Spark 应用程序调优

摘要：对于很多刚接触Spark的人来说，可能主要关心数据处理的逻辑，而对于如何高效运行Spark应用程序了解较少。由于Spark是一种分布式内存计算框架，其性能往往受限于CPU、内存、网络等多方面的因素，对于用户来说，如何在有限的资源下高效地运行Spark应用程序显得尤为重要。下面只针对Spark On 阅读全文

posted @ 2016-06-20 11:12 Sharkd 阅读(205) 评论(0) 推荐(0)

Akka-remote使用入门

摘要：在上一篇文章中讲了 "akka actor的简单使用" ，那主要是展现了akka在一台机器上的并发应用，这一篇接着介绍akka remote使用，简单了解akka在不同机器上的并发应用。我们知道，在一台机器上是多个本地actor之间发送消息，那么如果是在多台机器上，则不同机器上的actor是通过网络阅读全文

posted @ 2016-06-20 11:11 Sharkd 阅读(1213) 评论(0) 推荐(0)

Akka-actor使用入门

摘要：学习scala编程，不可避免的会接触到actor模式，它使得并发编程不再像噩梦般萦绕着开发者，Akka是actor的一个开源实现。由于本人水平有限，自认为还不能把actor设计思想讲明白，所以本文仅仅是一个使用akka actor的入门参考以及个人的入门心得，其具体原理及设计思想请参考相关资料，推荐阅读全文

posted @ 2016-06-20 11:09 Sharkd 阅读(432) 评论(0) 推荐(0)

Spark源码编译并在YARN上运行WordCount实例

摘要：在学习一门新语言时，想必我们都是”Hello World”程序开始，类似地，分布式计算框架的一个典型实例就是WordCount程序，接触过Hadoop的人肯定都知道用MapReduce实现WordCount，当前内存分布式计算框架Spark因为其计算速度之快，并且可以部署到Hadoop YARN中运阅读全文

posted @ 2016-06-20 11:04 Sharkd 阅读(276) 评论(0) 推荐(0)

CentOS下Hadoop-2.2.0集群安装配置

摘要：对于一个刚开始学习Spark的人来说，当然首先需要把环境搭建好，再跑几个例子，目前比较流行的部署是Spark On Yarn，作为新手，我觉得有必要走一遍Hadoop的集群安装配置，而不仅仅停留在本地(local)模式下学习，因为集群模式下跨多台机器，环境相对来说更复杂，许多在本地(local)模式阅读全文

posted @ 2016-06-20 11:03 Sharkd 阅读(148) 评论(0) 推荐(0)

公告