上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 23 下一页
摘要: 转自:https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/spark%E5%86%85%E5%AD%98%E6%A6%82%E8%BF%B0.md 1.5以前 spark进程是以JVM进程运行的,可以通过-Xmx和-Xms 阅读全文
posted @ 2016-09-29 18:16 XGogo 阅读(1872) 评论(0) 推荐(0) 编辑
摘要: 来自: https://community.qingcloud.com/topic/344/spark-streaming使用kafka保证数据零丢失 spark streaming从1.2开始提供了数据的零丢失,想享受这个特性,需要满足如下条件: 数据输入需要可靠的sources和可靠的recei 阅读全文
posted @ 2016-09-29 17:58 XGogo 阅读(548) 评论(0) 推荐(0) 编辑
摘要: Kafka为一个分布式的消息队列,spark流操作kafka有两种方式: 一种是利用接收器(receiver)和kafaka的高层API实现。 一种是不利用接收器,直接用kafka底层的API来实现(spark1.3以后引入)。 Receiver方式 基于Receiver方式实现会利用Kakfa的高 阅读全文
posted @ 2016-09-29 16:37 XGogo 阅读(9168) 评论(3) 推荐(0) 编辑
摘要: 转http://hadoop1989.com/2016/03/15/KafkaStreaming/ 在Spark1.3之前,默认的Spark接收Kafka数据的方式是基于Receiver的,在这之后的版本里,推出了Direct Approach,现在整理一下两种方式的异同。 1. Receiver- 阅读全文
posted @ 2016-09-29 10:02 XGogo 阅读(1938) 评论(0) 推荐(0) 编辑
摘要: 转自:http://hadoop1989.com/2015/10/08/Spark-Configuration/ 一、Spark参数设置 二、查看Spark参数设置 三、Spark参数分类 四、Spark性能相关参数 一、Spark参数设置 Spark配置参数,一共有三种方法, 1、 在程序中,直接 阅读全文
posted @ 2016-09-29 10:01 XGogo 阅读(3243) 评论(0) 推荐(0) 编辑
摘要: HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。 HBase特性: 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC 阅读全文
posted @ 2016-09-09 15:43 XGogo 阅读(925) 评论(0) 推荐(0) 编辑
摘要: 在Java代码中发现一个bug,就是本来更新为时间的内容更新为一些奇怪的内容,比如20819这种形式,本来更新的时间都是近期不会超过一年, 为什么会出现这种情况,非常奇怪,遂调试下代码,跟踪发现要匹配的字符串内容和预想的日期格式不符合,代码处理这种情况是抛出异常, 然后用今天的日期替代,结果没成功, 阅读全文
posted @ 2016-09-09 09:55 XGogo 阅读(1847) 评论(0) 推荐(0) 编辑
摘要: Spark 下操作 HBase(1.0.0 新 API) HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本。这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过还是应该尽早地来熟悉下新版API。并且了解下如何 阅读全文
posted @ 2016-09-08 22:03 XGogo 阅读(3074) 评论(0) 推荐(0) 编辑
摘要: 本文讲解Spark的结构化数据处理,主要包括:Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际,并且Spark 2.0的预览版本 阅读全文
posted @ 2016-09-01 22:58 XGogo 阅读(10454) 评论(1) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/xlturing/p/spark.html 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数 阅读全文
posted @ 2016-09-01 10:04 XGogo 阅读(3570) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 23 下一页