摘要:
1.流连接(stream join) 流连接基于一些常见的字段,把两个或者更多的数据流结合在一起,形成一个新的数据流。一个流连接可以有无限的输入,并且对于应该连接什么在语义上是不明确的。 每个应用的连接类型是不同的,一些应用使用两个流来连接所有元组——不管经过多长时间,另一些应用希望对于每个连接字段 阅读全文
摘要:
1.流连接(stream join) 流连接基于一些常见的字段,把两个或者更多的数据流结合在一起,形成一个新的数据流。一个流连接可以有无限的输入,并且对于应该连接什么在语义上是不明确的。 每个应用的连接类型是不同的,一些应用使用两个流来连接所有元组——不管经过多长时间,另一些应用希望对于每个连接字段 阅读全文
摘要:
流分组为每一个Bolt指定应该接受哪个流作为输入,定义了流/元组如何让在Bolt的任务之间进行分发。 在设计拓扑的时候,需要做一件非常重要的事情,就是定义数据如何在组件之间进行的交换。一个流分组指定每个Bolt消耗哪个流,流将如何被消耗。一个节点可以发出许多流,流分组允许我们有选择地接受流。 Sto 阅读全文
摘要:
创建并提交Topology到Storm集群的完整代码 //创建TopologyBuilder对象 TopologyBuilder builder=new TopologyBuilder(); //添加一个id为1,并行度为5的TestWordSpout对象 builder.setSpout("1", 阅读全文
摘要:
(1)执行hadoopFile()操作,其中有生成HadoopRDD的new 方法。然后执行map方法。pair => pair._2.toString,只对Value值进行操作。在textFile操作中首先从文件系统中读取分布式数据,并且以数据分片的方式存在于集群之中,生成HadoopRDD,的类 阅读全文
摘要:
1.模式匹配比java中的switch case强大很多,除了值,类型,集合等进行匹配,最常见的Case class进行匹配,Master.scala有大量的模式匹配。Case "_"表示不满足上面的所有情况的体验,举个例子:def bigdata(data: String){data match{... 阅读全文
摘要:
1.作为值的函数在Scala中,函数和数字一样,可以在变量中存放函数。可以把函数赋值给一个变量,格式为:val foee=fun _(函数名+空格+_)形式2.匿名函数在scala中,不需要给每一个函数命名,而是将该匿名函数赋值给一个变量例如:Array(3,4,5).map((x:Double)=... 阅读全文
摘要:
SparkContext.scala实现了一个SparkContext的class和object,SparkContext类似Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。在Spark框架下该类在一个JVM中只加载一次。在加载类的阶段,SparkContext类中定义的属性... 阅读全文
摘要:
在上一篇中把intelliJ IDEA安装并配置完事后,我们就可以写scala程序了。编写完scala程序后我们要把程序导出,上传到服务器上,在spark集群下运行,下面就讲一下包的导出过程以及包在服务集群上的运行过程。首先打开软件进入界面,点击file,在下拉菜单中选择project Struct... 阅读全文
摘要:
首先简单描述一下Apriori算法:Apriori算法分为频繁项集的产生和规则的产生。Apriori算法频繁项集的产生:令ck为候选k-项集的集合,而Fk为频繁k-项集的集合.1.首先通过单遍扫描数据集,确定每个项的支持度。一旦完成这一步,就可以得到所有频繁1-项集的集合F12.接下来,该算法将使用... 阅读全文
摘要:
由于刚刚进入研究生阶段,通过几个月对大数据的学习,从java到hadoop,再到scala到spark。在这我写一下我在ubuntu系统下intelliJ IDEA的安装和配置。首先我的ubuntu系统是14.04的,hadoop-2.6.0,java-1.7.0,scala-2.10.5在配置in... 阅读全文
|