12 2019 档案
摘要:kafka是一个高吞吐量,低延迟分布式的消息队列系统.kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒 一. kafka模型 kafka提供了一个生产者,缓冲区,消费者的模型 1.1 模型分析 broker:kafka集群有多个broker服务器组成,用于存储数据(消息) topic:不同
阅读全文
摘要:一. 简介 Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。拥有丰富的支持主流语言的客户端,C、C++、Python、Erlang、R、C#、Java、PHP、Objective-C、Perl、Ruby、Scala、Go、JavaScript。
阅读全文
摘要:一.示例 1.统计PV和UV 1.1统计PV val conf = new SparkConf() conf.setMaster("local").setAppName("pvuv") val sc = new SparkContext(conf) val lineRDD = sc.textFile
阅读全文
摘要:一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduc
阅读全文
摘要:一.scala基础 1.数据基础 2.变量和常量的声明 var 定义的是变量可以修改val 定义的是常量不可以修改 package com.shsxt.scala/** * @author: Savage * @data: 2019/10/21 19:50 */object Text { cla
阅读全文
摘要:一. 简介 1. 什么是elasticsearch Elasticsearch是一个基于Lucene的实时的分布式搜索和分析 引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠, 快速,安装使用方便。基于RESTful接口。 2. Lucene与ES的关系 1)Lucene只是一个库。想要使用它,
阅读全文
摘要:一,hive介绍 1.来源 facebook的数据仓库计算框架,后来开源给了Apache 主要做离线计算即就是不要求实时获取结果 2.数据仓库 数据库一般分为:OLAP OLTP 就是通过以往的数据分析,对现在的业务或者发展发现提供数据的支持 就是从历史数据中心发掘价值 一般有一下几种模式 星型模式
阅读全文
摘要:hbase调优 一.表的设计 1.设置预分区表 原因:前期region读写都集中到一个regionserver上,直到文件足够大时,才进行分区,这样会降低性能. 解决方案:建表是设置预分区,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。 public static
阅读全文
摘要:一.简介 1.来源: Google的关于大数据的三篇论文之BigTable,一般适合于存放千万级别以上的数据. 2.作用:HBase要完全依赖于HDFS,用于存储数据,HBase基于列 3.使用范围:适合存放半结构化或者非结构化的数据 结构化: 我们定义了一个类(结构体),由类创建的对象都保持着统一
阅读全文
摘要:一.虚拟机安装 1.安装环境 选择VMWare-->更改虚拟机安装位置-->预留至少30G的内存空间 2.安装虚拟机 1.安装 选择centos64位操作系统进行安装-->设置主机名称-->设置密码-->配置虚拟机:ifconfig查看网络信息,ping www.baidu.com 是否能访问外网
阅读全文