上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页
摘要: /* * @Title: SparkStreamingStatefulDemo * @ProjectName spark-scala * @Description: TODO * @author Mr.lu * @date 2018/11/19:10:25 ... 阅读全文
posted @ 2018-11-22 09:54 IT晓白 阅读(145) 评论(0) 推荐(0) 编辑
摘要: ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢?流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 记录发生时处理流。Kafka通常用于两大类应用:构建可在系统或应用程序之间可靠获取数据的实... 阅读全文
posted @ 2018-11-21 22:16 IT晓白 阅读(181) 评论(0) 推荐(0) 编辑
摘要: Scala面向对象、函数式编程、更高层的并发模型—里面包含编译器、类库它不存在成员变量,通过object(单例)取代函数处理:可以吧函数化成一个参数传过去Object:入口类关键字-项目入口 类似于Java中的main方法Def:函数声明—定义一个方法/函数Val:常... 阅读全文
posted @ 2018-11-20 22:44 IT晓白 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 众所周知,Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics,下称EOS)。Kafka的EOS主要体现在3个方面:幂等producer:保证发送单个分区的消息只会发送一次,不会出现重复消息 事务(t... 阅读全文
posted @ 2018-11-20 21:10 IT晓白 阅读(454) 评论(0) 推荐(0) 编辑
摘要: RDD:Resilient Distributed Dataset(弹性分布式数据集)弹性:数据集的可恢复型原因:在分布式环境下,运算节点很容易出问题,会造成数据的丢失,rdd可以在数据丢失的背景下恢复数据。数据恢复的技术:1.基本备份2.基于日志(hadoop na... 阅读全文
posted @ 2018-11-14 17:41 IT晓白 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 1.创建maven工程创建project--Java创建module--maven2.添加依赖 org.apache.spark spark-core_2.11 2.3.0 ... 阅读全文
posted @ 2018-11-14 17:39 IT晓白 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 两种方式: a.每一台机器都配一个本地文件系统上的yum仓库 file:////package/path/ (不推荐因为需要在每台机器上配置) b.在局域网内配置一台节点(server-base)的本地文件系统yum仓库,然后将其发布到web服务器中,其他节... 阅读全文
posted @ 2018-11-10 15:14 IT晓白 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 一、依赖 com.sleepycat je 5.0.73 org.apache.pdfbox pdfbox 2.0.8 二、实现代码import lombok.extern.slf4j.Slf4j;import org.apache... 阅读全文
posted @ 2018-11-06 22:13 IT晓白 阅读(6680) 评论(0) 推荐(0) 编辑
摘要: 一、BDB数据库环境,可以缓存StoredClassCatalog并共享--BdbEnvironmentimport java.io.File;import com.sleepycat.bind.serial.StoredClassCatalog;import com... 阅读全文
posted @ 2018-11-06 22:00 IT晓白 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 一、Berkeley DB简介 Berkeley DB是一个开放源代码的内嵌式数据库管理系统,能够为应用程序提供高性能的数据管理服务。应用它程序员只需要调用一些简单的API就可以完成对数据的访问和管理。与常用的数据库管理系统(如MySQL和Oracle等... 阅读全文
posted @ 2018-11-06 21:41 IT晓白 阅读(1213) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页