2019 年 12月随笔档案 - 数据阮小白

认识kafka

摘要：kafka是一个高吞吐量,低延迟分布式的消息队列系统.kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒一. kafka模型 kafka提供了一个生产者,缓冲区,消费者的模型 1.1 模型分析 broker:kafka集群有多个broker服务器组成,用于存储数据(消息) topic:不同阅读全文

posted @ 2019-12-30 13:55 数据阮小白阅读(84) 评论(0) 推荐(0) 编辑

redis

摘要：一. 简介 Redis 是一个开源（BSD许可）的，内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。拥有丰富的支持主流语言的客户端，C、C++、Python、Erlang、R、C#、Java、PHP、Objective-C、Perl、Ruby、Scala、Go、JavaScript。阅读全文

posted @ 2019-12-30 13:54 数据阮小白阅读(90) 评论(0) 推荐(0) 编辑

再识spark

摘要：一.示例 1.统计PV和UV 1.1统计PV val conf = new SparkConf() conf.setMaster("local").setAppName("pvuv") val sc = new SparkContext(conf) val lineRDD = sc.textFile 阅读全文

posted @ 2019-12-30 13:53 数据阮小白阅读(247) 评论(0) 推荐(0) 编辑

spark初识

摘要：一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduc 阅读全文

posted @ 2019-12-30 13:51 数据阮小白阅读(150) 评论(0) 推荐(0) 编辑

scala

摘要：一.scala基础 1.数据基础 2.变量和常量的声明 var 定义的是变量可以修改val 定义的是常量不可以修改 package com.shsxt.scala/** * @author: Savage * @data: 2019/10/21 19:50 */object Text { cla 阅读全文

posted @ 2019-12-30 13:48 数据阮小白阅读(230) 评论(0) 推荐(0) 编辑

elasticsearch

摘要：一. 简介 1. 什么是elasticsearch Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。基于RESTful接口。 2. Lucene与ES的关系 1）Lucene只是一个库。想要使用它，阅读全文

posted @ 2019-12-30 13:46 数据阮小白阅读(98) 评论(0) 推荐(0) 编辑

关于hive

摘要：一,hive介绍 1.来源 facebook的数据仓库计算框架,后来开源给了Apache 主要做离线计算即就是不要求实时获取结果 2.数据仓库数据库一般分为:OLAP OLTP 就是通过以往的数据分析，对现在的业务或者发展发现提供数据的支持就是从历史数据中心发掘价值一般有一下几种模式星型模式阅读全文

posted @ 2019-12-30 13:44 数据阮小白阅读(369) 评论(0) 推荐(0) 编辑

hbase调优和protouf

摘要：hbase调优一.表的设计 1.设置预分区表原因:前期region读写都集中到一个regionserver上,直到文件足够大时,才进行分区,这样会降低性能. 解决方案:建表是设置预分区,这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。 public static 阅读全文

posted @ 2019-12-30 13:42 数据阮小白阅读(241) 评论(0) 推荐(0) 编辑

hbase

摘要：一.简介 1.来源: Google的关于大数据的三篇论文之BigTable,一般适合于存放千万级别以上的数据. 2.作用:HBase要完全依赖于HDFS,用于存储数据,HBase基于列 3.使用范围:适合存放半结构化或者非结构化的数据结构化：我们定义了一个类(结构体)，由类创建的对象都保持着统一阅读全文

posted @ 2019-12-30 13:40 数据阮小白阅读(154) 评论(0) 推荐(0) 编辑

Linux常见命令

摘要：一.虚拟机安装 1.安装环境选择VMWare-->更改虚拟机安装位置-->预留至少30G的内存空间 2.安装虚拟机 1.安装选择centos64位操作系统进行安装-->设置主机名称-->设置密码-->配置虚拟机:ifconfig查看网络信息,ping www.baidu.com 是否能访问外网阅读全文

posted @ 2019-12-30 13:35 数据阮小白阅读(1030) 评论(0) 推荐(0) 编辑

数据阮小白

#数据阮小白的进阶之路

12 2019 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜