摘要: package project; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONArray; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map; // fast... 阅读全文
posted @ 2018-11-28 19:19 阿文awen 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 文档一: aaa.txt内容如下 2018-11-26 hello world! 192.168.136.128 192.168.136.129 20181127 2018-12-12 2018-11-11 aaa bbb 文档二: student.txt内容如下 ID Name gender Ma 阅读全文
posted @ 2018-11-26 21:35 阿文awen 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 分布式与集群的区别通俗解释 (1)回答1: 集群是个物理形态,分布式是个工作方式。只要是一堆机器,就可以叫集群,他们是不是一起协作着干活,这个谁也不知道;一个程序或系统,只要运行在不同的机器上,就可以叫分布式,嗯,C/S架构也可以叫分布式。集群一般是物理集中、统一管理的,而分布式系统则不强调这一点。 阅读全文
posted @ 2018-11-26 21:12 阿文awen 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 1、 什么是MPP? MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提 阅读全文
posted @ 2018-11-26 17:48 阿文awen 阅读(1904) 评论(0) 推荐(0) 编辑
摘要: OLTP与OLAP的介绍 数据处理分为两种技术架构系统:OLTP与OLAP OLTP(联机事务处理过程) OLTP是传统的关系型数据库的主要应用,主要是基本的,日常的事务处理,例如银行的交易 OLTP系统 (on-line transaction processing) 强调数据库内存效率 强调内存 阅读全文
posted @ 2018-11-26 17:32 阿文awen 阅读(746) 评论(0) 推荐(0) 编辑
摘要: Spark Standalone模式提交任务 Cluster模式: 执行流程 1、cluster模式提交应用程序后,会向Master请求启动Driver.(而不是启动application) 2、Master接受请求,随机在集群一台节点启动Driver进程。 3、Driver启动后为当前的应用程序申 阅读全文
posted @ 2018-11-24 13:16 阿文awen 阅读(2447) 评论(0) 推荐(1) 编辑
摘要: 反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下 步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 阅读全文
posted @ 2018-11-24 11:39 阿文awen 阅读(257) 评论(0) 推荐(0) 编辑
摘要: foreachRDD(SparkStreaming): SparkStreaming是流式实时处理数据,就是将数据流按照定义的时间进行分割(就是"批处理").每一个时间段内处理到的都是一个RDD.而SparkStreaming中的foreachRDD方法就是在处理每一个时间段内的RDD数据. DSt 阅读全文
posted @ 2018-11-24 10:37 阿文awen 阅读(1318) 评论(0) 推荐(0) 编辑
摘要: 一、Spark Streaming连Kafka(重点) 方式一:Receiver方式连:走磁盘 使用High Level API(高阶API)实现Offset自动管理,灵活性差,处理数据时,如果某一时刻数据量过大就会磁盘溢写,通过WALS(Write Ahead Logs)进行磁盘写入,0.10版本 阅读全文
posted @ 2018-11-23 10:21 阿文awen 阅读(226) 评论(0) 推荐(0) 编辑
摘要: ElasticSearch介绍: ElasticSearch是一个基于Lucene的搜索服务器 ,elasticsearch封装了抽象接口用于连接Lucene Lucene是一套用于全文检索和搜寻的开源程式库 安装很简单: 解压就可以用,几乎是o配置 分布式全文检索服务器 要求是两个节点,最好是三个 阅读全文
posted @ 2018-11-22 14:20 阿文awen 阅读(213) 评论(0) 推荐(0) 编辑