摘要: 前面一篇应该算是比较详细的介绍了spark的基础知识,在了解了一些spark的知识之后相必大家对spark应该不算陌生了吧!如果你之前写过MapReduce,现在对spark也很熟悉的话我想你再也不想用MapReduce去写一个应用程序了,不是说MapReduce有多繁琐(相对而言),还有运行的效率 阅读全文
posted @ 2018-01-07 16:50 兮夜那么美 阅读(6265) 评论(1) 推荐(0) 编辑
摘要: 在讲spark之前,不得不详细介绍一下RDD(Resilient Distributed Dataset),打开RDD的源码,一开始的介绍如此: 字面意思就是弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Resilient:弹性的,它表示的 阅读全文
posted @ 2018-01-07 01:11 兮夜那么美 阅读(5425) 评论(0) 推荐(0) 编辑
摘要: 前言:最近一段时间比较忙,也是比较懒了吧,好长时间没写博客了,新的一年到来,给自己一个小目标,博客坚持写下去,分享一下这历程!废话不多说,开始正题咯(希望大家喜欢!) 首先这算是一个scala程序的入门程序,但是并不是针对零基础的,需要了解一定的scala基础,如果有Java基础的同学看起来估计会好 阅读全文
posted @ 2018-01-03 00:51 兮夜那么美 阅读(781) 评论(0) 推荐(0) 编辑
摘要: 1.MapTask工作机制 整个map阶段流程大体如上图所示。简单概述:input File通过getSplits被逻辑切分为多个split文件,通通过RecordReader(默认使用lineRecordReader)按行读取内容给map(用户自己实现的map方法),进行处理,数据被map处理结束 阅读全文
posted @ 2017-12-18 16:20 兮夜那么美 阅读(771) 评论(0) 推荐(0) 编辑
摘要: 首先我们得明白什么是数据仓库? 数据仓库,英文名称为Data warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消 阅读全文
posted @ 2017-12-11 19:35 兮夜那么美 阅读(10206) 评论(1) 推荐(0) 编辑
摘要: Apache Flume概述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 支持定制各类数据发送方,用于收集各类型数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。一般的采集需求,通过对 flu 阅读全文
posted @ 2017-12-08 22:26 兮夜那么美 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 什么是hadoop? Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处 阅读全文
posted @ 2017-12-05 17:33 兮夜那么美 阅读(1784) 评论(0) 推荐(0) 编辑
摘要: 为什么要进行网站流量数据统计分析? 随着大数据时代的到来,各行各业产生的数据呈爆发式增长,大数据的技术从之前的“虚无”变成可能,数据产生的各种潜在价值慢慢的被人们挖掘出来利用在各行各业上。比如网站流量数据统计分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、 阅读全文
posted @ 2017-12-03 21:54 兮夜那么美 阅读(3779) 评论(1) 推荐(1) 编辑
摘要: 开源数据库中间件-MyCat产生的背景 如今随着互联网的发展,数据的量级也是成指数的增长,从GB到TB到PB。对数据的各种操作也是愈加的困难,传统的关系型数据库已经无法满足快速查询与插入数据的需求。这个时候NoSQL的出现暂时解决了这一危机。它通过降低数据的安全性,减少对事务的支持,减少对复杂查询的 阅读全文
posted @ 2017-11-26 22:30 兮夜那么美 阅读(1663) 评论(0) 推荐(0) 编辑
摘要: 1.集群概述 1.1什么是集群 1.1.1集群概念 集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单 阅读全文
posted @ 2017-11-24 16:38 兮夜那么美 阅读(2792) 评论(0) 推荐(0) 编辑