上一页 1 2 3 4 5 6 ··· 26 下一页
摘要: Window Operations 有点类似于Storm中的State,可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态,可以对一段时间的数据进行处理。 如图window length 为3秒sliding interval 为2秒batch interval of th 阅读全文
posted @ 2017-04-28 11:42 天之涯0204 阅读(248) 评论(0) 推荐(0) 编辑
摘要: map(func):对DStream中的所有的元素进行func转换生成新的DStream flatMap(func):和map方法类似,先对DStream中的元素进行func运算,然后压平,就是说,如果有一个元素是集合或者数组,那么会被拆成一个一个的元素 filter(func):对DStream中 阅读全文
posted @ 2017-04-28 11:28 天之涯0204 阅读(150) 评论(0) 推荐(0) 编辑
摘要: Receiver 从数据源接收数据,然后把数据存储在内存中供spark streaming使用,在本地运行spark streaming不能设置master为local或者local[1],此时运行的线程只有一个,因为需要一个线程去运行Receiver接收数据,因此,就没有线程去处理数据了 代码 使 阅读全文
posted @ 2017-04-28 10:11 天之涯0204 阅读(407) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、Zero 阅读全文
posted @ 2017-04-28 09:21 天之涯0204 阅读(172) 评论(0) 推荐(0) 编辑
摘要: ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候,会启动了一个SparkSQL的应用程序,而通过JDBC/ODBC连接进来的客户端共同分享这个SparkSQL应用程序的资 阅读全文
posted @ 2017-04-27 17:36 天之涯0204 阅读(2587) 评论(0) 推荐(0) 编辑
摘要: Spark SQL CLI Spark1.1增加了Spark SQL CLI和ThriftServer SparkSQL CLI配置 1、创建并配置hive-site.xml 在运行Spark SQL CLI中需要使用到Hive Metastore,故需要在Spark中添加其uris。具体方法是在S 阅读全文
posted @ 2017-04-27 17:12 天之涯0204 阅读(204) 评论(0) 推荐(0) 编辑
摘要: DSL风格语法 1、查看DataFrame中的内容 2、查看DataFrame部分列的数据 3、查看DataFrame schema信息 4、查询name和age并将age + 1 5、过滤年龄大于20的人 6、按年龄分组,并统计年龄相同的人数 SQL风格 在使用SQL风格前,首先需要将DataFr 阅读全文
posted @ 2017-04-27 14:45 天之涯0204 阅读(377) 评论(0) 推荐(0) 编辑
摘要: SQLContext是创建DataFrame和执行SQL语句的入口 通过RDD结合case class转换为DataFrame 1、准备:hdfs上提交一个文件,schema为id name age,内容如下 2、打开spark-shell命令行,执行如下 阅读全文
posted @ 2017-04-27 11:28 天之涯0204 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 什么是spark SQL spark SQL是spark处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并作为分布式SQL查询引擎来使用。 spark SQL和 hive SQL hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的复 阅读全文
posted @ 2017-04-27 10:24 天之涯0204 阅读(154) 评论(0) 推荐(0) 编辑
摘要: RDD的缓存 Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存数据集。当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存是Spark最重要的特征之一。可以 阅读全文
posted @ 2017-04-26 18:24 天之涯0204 阅读(985) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 26 下一页