摘要: 一. 消息队列的简介 1.简介 在计算机科学中,消息队列(英语:Message queue)是一种进程间通信或同一进程的不同线程间的通信方式,软件的贮列用来处理一系列的输入,通常是来自用户。消息队列提供了异步的通信协议,每一个贮列中的纪录包含详细说明的数据,包含发生的时间,输入设 备的种类,以及特定 阅读全文
posted @ 2020-01-02 15:43 数据阮小白 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 1.关于库/表操作 建库 create database mydb; create database if no exists mydb; create database if no exists mydb location “/aa/bb”; 查询数据库 查询库列表:show databases; 阅读全文
posted @ 2020-01-02 15:32 数据阮小白 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 一. 简介 是个实时的,分布式以及具备高容错的计算框架 storm进程常驻内存 storm数据不经过磁盘,在内存中处理 是Twitter开源的实时的大数据处理框架,最早开源与GitHub 架构 nimbus supervisor worker 编程模型 DAG(topology) spout bol 阅读全文
posted @ 2020-01-02 13:40 数据阮小白 阅读(225) 评论(0) 推荐(0) 编辑
摘要: kafka是一个高吞吐量,低延迟分布式的消息队列系统.kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒 一. kafka模型 kafka提供了一个生产者,缓冲区,消费者的模型 1.1 模型分析 broker:kafka集群有多个broker服务器组成,用于存储数据(消息) topic:不同 阅读全文
posted @ 2019-12-30 13:55 数据阮小白 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 一. 简介 Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。拥有丰富的支持主流语言的客户端,C、C++、Python、Erlang、R、C#、Java、PHP、Objective-C、Perl、Ruby、Scala、Go、JavaScript。 阅读全文
posted @ 2019-12-30 13:54 数据阮小白 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 一.示例 1.统计PV和UV 1.1统计PV val conf = new SparkConf() conf.setMaster("local").setAppName("pvuv") val sc = new SparkContext(conf) val lineRDD = sc.textFile 阅读全文
posted @ 2019-12-30 13:53 数据阮小白 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduc 阅读全文
posted @ 2019-12-30 13:51 数据阮小白 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 一.scala基础 1.数据基础 2.变量和常量的声明 var 定义的是变量可以修改val 定义的是常量不可以修改 package com.shsxt.scala​/** * @author: Savage * @data: 2019/10/21 19:50 */object Text {​ cla 阅读全文
posted @ 2019-12-30 13:48 数据阮小白 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 一. 简介 1. 什么是elasticsearch Elasticsearch是一个基于Lucene的实时的分布式搜索和分析 引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠, 快速,安装使用方便。基于RESTful接口。 2. Lucene与ES的关系 1)Lucene只是一个库。想要使用它, 阅读全文
posted @ 2019-12-30 13:46 数据阮小白 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 一,hive介绍 1.来源 facebook的数据仓库计算框架,后来开源给了Apache 主要做离线计算即就是不要求实时获取结果 2.数据仓库 数据库一般分为:OLAP OLTP 就是通过以往的数据分析,对现在的业务或者发展发现提供数据的支持 就是从历史数据中心发掘价值 一般有一下几种模式 星型模式 阅读全文
posted @ 2019-12-30 13:44 数据阮小白 阅读(368) 评论(0) 推荐(0) 编辑