IT晓白 - 博客园

摘要： /* * @Title: SparkStreamingStatefulDemo * @ProjectName spark-scala * @Description: TODO * @author Mr.lu * @date 2018/11/19:10:25 ... 阅读全文

posted @ 2018-11-22 09:54 IT晓白阅读(158) 评论(0) 推荐(0)

摘要： ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢？流媒体平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流。Kafka通常用于两大类应用：构建可在系统或应用程序之间可靠获取数据的实... 阅读全文

posted @ 2018-11-21 22:16 IT晓白阅读(192) 评论(0) 推荐(0)

摘要： Scala面向对象、函数式编程、更高层的并发模型—里面包含编译器、类库它不存在成员变量，通过object（单例）取代函数处理：可以吧函数化成一个参数传过去Object：入口类关键字-项目入口类似于Java中的main方法Def:函数声明—定义一个方法/函数Val:常... 阅读全文

posted @ 2018-11-20 22:44 IT晓白阅读(202) 评论(0) 推荐(0)

摘要：众所周知，Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics，下称EOS)。Kafka的EOS主要体现在3个方面：幂等producer：保证发送单个分区的消息只会发送一次，不会出现重复消息事务(t... 阅读全文

posted @ 2018-11-20 21:10 IT晓白阅读(481) 评论(0) 推荐(0)

摘要： RDD：Resilient Distributed Dataset(弹性分布式数据集)弹性：数据集的可恢复型原因：在分布式环境下，运算节点很容易出问题，会造成数据的丢失，rdd可以在数据丢失的背景下恢复数据。数据恢复的技术：1.基本备份2.基于日志（hadoop na... 阅读全文

posted @ 2018-11-14 17:41 IT晓白阅读(386) 评论(0) 推荐(0)

摘要： 1.创建maven工程创建project--Java创建module--maven2.添加依赖 org.apache.spark spark-core_2.11 2.3.0 ... 阅读全文

posted @ 2018-11-14 17:39 IT晓白阅读(157) 评论(0) 推荐(0)

摘要：两种方式： a.每一台机器都配一个本地文件系统上的yum仓库 file：////package/path/ (不推荐因为需要在每台机器上配置) b.在局域网内配置一台节点（server-base）的本地文件系统yum仓库，然后将其发布到web服务器中，其他节... 阅读全文

posted @ 2018-11-10 15:14 IT晓白阅读(434) 评论(0) 推荐(0)

摘要：一、依赖 com.sleepycat je 5.0.73 org.apache.pdfbox pdfbox 2.0.8 二、实现代码import lombok.extern.slf4j.Slf4j;import org.apache... 阅读全文

posted @ 2018-11-06 22:13 IT晓白阅读(6994) 评论(0) 推荐(0)

摘要：一、BDB数据库环境,可以缓存StoredClassCatalog并共享--BdbEnvironmentimport java.io.File;import com.sleepycat.bind.serial.StoredClassCatalog;import com... 阅读全文

posted @ 2018-11-06 22:00 IT晓白阅读(474) 评论(0) 推荐(0)

摘要：一、Berkeley DB简介 Berkeley DB是一个开放源代码的内嵌式数据库管理系统，能够为应用程序提供高性能的数据管理服务。应用它程序员只需要调用一些简单的API就可以完成对数据的访问和管理。与常用的数据库管理系统（如MySQL和Oracle等... 阅读全文

posted @ 2018-11-06 21:41 IT晓白阅读(1372) 评论(0) 推荐(0)

一个双鱼座的列表儿