随笔分类 -  Spark

摘要:1. 首先启动zookeeper2. 启动kafka3. 核心代码生产者生产消息的java代码,生成要统计的单词package streaming;import java.util.Properties; import kafka.javaapi.producer.Producer; impo... 阅读全文
posted @ 2015-11-12 17:12 ~风轻云淡~ 阅读(23456) 评论(9) 推荐(0) 编辑
摘要:原文链接:http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/index.html?ca=drs-&utm_source=tuicool引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据... 阅读全文
posted @ 2015-11-09 09:16 ~风轻云淡~ 阅读(1078) 评论(0) 推荐(0) 编辑
摘要:原文链接:Spark集群基于Zookeeper的HA搭建部署笔记1.环境介绍(1)操作系统RHEL6.2-64(2)两个节点:spark1(192.168.232.147),spark2(192.168.232.152)(3)两个节点上都装好了Hadoop 2.2集群2.安装Zookeeper(1)... 阅读全文
posted @ 2015-11-04 15:19 ~风轻云淡~ 阅读(451) 评论(0) 推荐(0) 编辑
摘要:当大片连续区域进行数据存储并且存储区域中数据重复性高的状况下,数据适合进行压缩。数组或者对象序列化后的数据块可以考虑压缩。所以序列化后的数据可以压缩,使数据紧缩,减少空间开销。1. Spark对压缩方式的选择 压缩采用了两种算法:Snappy和LZF,底层分别采用了两个第三方库实现,同时可以自... 阅读全文
posted @ 2015-11-03 21:46 ~风轻云淡~ 阅读(3439) 评论(0) 推荐(0) 编辑
摘要:1. 先进先出(FIFO)调度器 先进先出调度器是Hadoop的默认调度器。就像这个名字所隐含的那样,这种调度器就是用简单按照“先到先得”的算法来调度任务的。例如,作业A和作业B被先后提交。那么在执行作业B的任务前,作业A中的所有map任务都应该已经执行完成。 配置:调度器类型的配置是在mapr... 阅读全文
posted @ 2015-11-02 16:44 ~风轻云淡~ 阅读(2702) 评论(0) 推荐(0) 编辑
摘要:1. hadoop fs 帮助信息hadoop fs使用help选项可以获得某个具体命令的详细说明:hadoop fs -help ls2. 列出HDFS文件和目录hadoop fs -ls /user/3. 复制文件到HDFS和从HDFS复制文件 在很多方面,HDFS较之于本地0S文件系统更像一... 阅读全文
posted @ 2015-11-02 10:49 ~风轻云淡~ 阅读(2542) 评论(0) 推荐(0) 编辑
摘要:1、《Scala深入浅出实战经典》http://pan.baidu.com/s/1pJnAUr52、《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1sLeVk3、《Docker公益大讲坛》http://pan.baidu.com/s/1hq0GztU4、《spark亚太... 阅读全文
posted @ 2015-10-24 16:15 ~风轻云淡~ 阅读(322) 评论(0) 推荐(0) 编辑
摘要:转载:http://www.oschina.net/translate/spark-tuning因为大部分Spark程序都具有“内存计算”的天性,所以集群中的所有资源:CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。通常情况下,如果数据完全加载到内存那么网络带宽就会成为瓶颈,但是你仍然需... 阅读全文
posted @ 2015-10-20 22:03 ~风轻云淡~ 阅读(362) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://blog.csdn.net/book_mmicky/article/details/25714545 随着Spark的应用越来越广泛,对支持多资源管理器应用程序部署工具的需求也越来越迫切。Spark1.0.0的出现,这个问题得到了逐步改善。从Spark1.0.0开始,Spa... 阅读全文
posted @ 2015-04-28 17:52 ~风轻云淡~ 阅读(479) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming的编程和Spark的编程如出一辙,对于编程的理解也非常类似。对于Spark来说,编程就是对于RDD的操作;而对于Spark Streaming来说,就是对DStream的操作。下面将通过一个大家熟悉的WordCount的例子来说明Spark Streaming中的输入操... 阅读全文
posted @ 2015-04-07 20:32 ~风轻云淡~ 阅读(1208) 评论(0) 推荐(0) 编辑
摘要:实现的代码如下: 1 import java.io.IOException; 2 import java.net.URI; 3 import java.net.URISyntaxException; 4 5 import org.a... 阅读全文
posted @ 2015-04-07 19:47 ~风轻云淡~ 阅读(5061) 评论(0) 推荐(0) 编辑
摘要:问题导读:1.什么是sbt?2.sbt项目环境如何建立?3.如何使用sbt编译打包scala?sbt介绍sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要java1.6以上。sbt项目环境建立sbt编译需要固定的目录格式,并且需要联网,sbt会将依赖的jar包下载... 阅读全文
posted @ 2015-04-07 14:30 ~风轻云淡~ 阅读(5296) 评论(0) 推荐(0) 编辑
摘要:1. scala程序如下package com.cn.gaoimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._/** * @author... 阅读全文
posted @ 2015-03-27 10:20 ~风轻云淡~ 阅读(2221) 评论(0) 推荐(0) 编辑
摘要:1.编写程序代码如下:Wordcount.scalapackage Wordcountimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._... 阅读全文
posted @ 2015-03-25 18:25 ~风轻云淡~ 阅读(7754) 评论(0) 推荐(0) 编辑
摘要:Spark是一个类似Map-Reduce的集群计算框架,用于快速进行数据分析。在这个应用中,我们以统计包含"the"字符的行数为案例,.为建立这个应用,我们使用Spark 1.0.1,Scala 2.10.4 &sbt 0.14.0.1). 运行mkdir SimpleSparkProject.2)... 阅读全文
posted @ 2015-03-25 18:14 ~风轻云淡~ 阅读(4930) 评论(0) 推荐(0) 编辑
摘要:名词解释RDD全称为ResilientDistributedDataset,弹性分布式数据集。就是分布在集群节点上的数据集,这些集合可以用来进行各种操作。最重要的一点是,某个操作计算后的数据集可以缓存在内存中,然后给其他计算使用,这种在迭代计算中很常见。比如:我们可以从hdfs文件里创建一个数据集,... 阅读全文
posted @ 2015-03-09 16:37 ~风轻云淡~ 阅读(501) 评论(0) 推荐(0) 编辑
摘要:Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,... 阅读全文
posted @ 2015-03-05 14:43 ~风轻云淡~ 阅读(19287) 评论(7) 推荐(0) 编辑
摘要:1. 文件操作(1) 列出HDFS下的文件/usr/local/hadoop$bin/hadoop dfs -ls(2) 列出HDFS文件下名为in的文档中的文件/usr/local/hadoop$bin/hadoop dfs -ls in(3) 上传文件将hadoop目录下的test1文件上传到H... 阅读全文
posted @ 2015-03-04 20:27 ~风轻云淡~ 阅读(113659) 评论(0) 推荐(1) 编辑