hard-working - 博客园

公告

2016年4月15日

摘要： 1.流连接(stream join) 流连接基于一些常见的字段，把两个或者更多的数据流结合在一起，形成一个新的数据流。一个流连接可以有无限的输入，并且对于应该连接什么在语义上是不明确的。每个应用的连接类型是不同的，一些应用使用两个流来连接所有元组——不管经过多长时间，另一些应用希望对于每个连接字段阅读全文

posted @ 2016-04-15 16:47 hard-working 阅读(370) 评论(0) 推荐(0) 编辑

流分组

摘要：流分组为每一个Bolt指定应该接受哪个流作为输入，定义了流/元组如何让在Bolt的任务之间进行分发。在设计拓扑的时候，需要做一件非常重要的事情，就是定义数据如何在组件之间进行的交换。一个流分组指定每个Bolt消耗哪个流，流将如何被消耗。一个节点可以发出许多流，流分组允许我们有选择地接受流。 Sto 阅读全文

posted @ 2016-04-15 10:21 hard-working 阅读(503) 评论(0) 推荐(0) 编辑

2016年4月14日

TopologyBuilder

摘要：创建并提交Topology到Storm集群的完整代码 //创建TopologyBuilder对象 TopologyBuilder builder=new TopologyBuilder(); //添加一个id为1，并行度为5的TestWordSpout对象 builder.setSpout("1", 阅读全文

posted @ 2016-04-14 21:43 hard-working 阅读(852) 评论(0) 推荐(0) 编辑

2016年1月27日

wordcount数据流过程解析

摘要： (1)执行hadoopFile()操作，其中有生成HadoopRDD的new 方法。然后执行map方法。pair => pair._2.toString，只对Value值进行操作。在textFile操作中首先从文件系统中读取分布式数据，并且以数据分片的方式存在于集群之中，生成HadoopRDD，的类阅读全文

posted @ 2016-01-27 23:50 hard-working 阅读(210) 评论(0) 推荐(0) 编辑

2016年1月21日

Scala模式匹配和类型系统

摘要： 1.模式匹配比java中的switch case强大很多，除了值，类型，集合等进行匹配，最常见的Case class进行匹配，Master.scala有大量的模式匹配。Case "_"表示不满足上面的所有情况的体验，举个例子：def bigdata(data: String){data match{... 阅读全文

posted @ 2016-01-21 01:32 hard-working 阅读(566) 评论(0) 推荐(0) 编辑

2016年1月20日

scala函数式编程

摘要： 1.作为值的函数在Scala中，函数和数字一样，可以在变量中存放函数。可以把函数赋值给一个变量，格式为：val foee=fun _（函数名+空格+_）形式2.匿名函数在scala中，不需要给每一个函数命名，而是将该匿名函数赋值给一个变量例如：Array(3,4,5).map((x:Double)=... 阅读全文

posted @ 2016-01-20 00:21 hard-working 阅读(1631) 评论(0) 推荐(0) 编辑

2016年1月17日

SparkContext和RDD

摘要： SparkContext.scala实现了一个SparkContext的class和object,SparkContext类似Spark的入口，负责连接Spark集群，创建RDD,累积量和广播量等。在Spark框架下该类在一个JVM中只加载一次。在加载类的阶段，SparkContext类中定义的属性... 阅读全文

posted @ 2016-01-17 01:33 hard-working 阅读(693) 评论(0) 推荐(0) 编辑

2016年1月15日

intelliJ IDEA中项目以jar包的形式导出

摘要：在上一篇中把intelliJ IDEA安装并配置完事后，我们就可以写scala程序了。编写完scala程序后我们要把程序导出，上传到服务器上，在spark集群下运行，下面就讲一下包的导出过程以及包在服务集群上的运行过程。首先打开软件进入界面，点击file，在下拉菜单中选择project Struct... 阅读全文

posted @ 2016-01-15 00:40 hard-working 阅读(1295) 评论(0) 推荐(0) 编辑

2016年1月14日

利用Apriori算法对交通路况的研究

摘要：首先简单描述一下Apriori算法：Apriori算法分为频繁项集的产生和规则的产生。Apriori算法频繁项集的产生：令ck为候选k-项集的集合，而Fk为频繁k-项集的集合.1.首先通过单遍扫描数据集，确定每个项的支持度。一旦完成这一步，就可以得到所有频繁1-项集的集合F12.接下来，该算法将使用... 阅读全文

posted @ 2016-01-14 14:05 hard-working 阅读(373) 评论(0) 推荐(0) 编辑

linux 系统下IntelliJ IDEA的安装及使用

摘要：由于刚刚进入研究生阶段，通过几个月对大数据的学习，从java到hadoop，再到scala到spark。在这我写一下我在ubuntu系统下intelliJ IDEA的安装和配置。首先我的ubuntu系统是14.04的，hadoop-2.6.0，java-1.7.0，scala-2.10.5在配置in... 阅读全文

posted @ 2016-01-14 01:32 hard-working 阅读(25415) 评论(0) 推荐(0) 编辑

午夜的风

公告