06 2019 档案
摘要:spark的shuffle和原理分析 1 、概述 Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶
阅读全文
摘要:spark任务调度和资源分配 1、Spark调度模式 FIFO和FAIR Spark中的调度模式主要有两种:FIFO和FAIR。 默认情况下Spark的调度模式是FIFO(先进先出),谁先提交谁先执行,后面的任务需要等待前面的任务执行。 而FAIR(公平调度)模式支持在调度池中为任务进行分组,不同的
阅读全文
摘要:spark面试问题 1、spark中的RDD是什么,有哪些特性 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的 Distri
阅读全文
摘要:Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用; UDF只能实现一进一出的操作。 定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, D
阅读全文
摘要:介绍 hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复
阅读全文
摘要:调优 1 Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-
阅读全文
摘要:Flink是什么 Flink是一个分布式计算引擎 MapReduce Spark Storm 同时支持流计算和批处理 和Spark不同, Flink是使用流的思想做批, Spark是采用做批的思想做流 Flink的优势 和Hadoop相比, Flink使用内存进行计算, 速度明显更优 和同样使用内存
阅读全文
摘要:1. 堆设置-Xms: :初始堆大小。-Xmx: :最大堆大小。-XX:NewSize=n: :设置年轻代大小。-XX:NewRatio=n: : :设置年轻代和年老代的比值。如:为 3,表示年轻代与年老代比值为 1:3,年轻代占整个年轻代年老代和的 1/4。-XX:SurvivorRatio=n:
阅读全文
摘要:1、HUE简介 来源 HUE=HadoopUser Experience,看这名字就知道怎么回事了吧,没错,直白来说就是Hadoop用户体验,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoo
阅读全文
摘要:https://blog.csdn.net/mrbcy/article/details/68965271 https://blog.csdn.net/fashion2014/article/details/78826299
阅读全文
摘要:vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc 将下方脚本写入redis
阅读全文
摘要:HBase表类型的设计 1、短宽 这种设计一般适用于: * 有大量的列 * 有很少的行 2、高瘦 这种设计一般适用于: * 有很少的列 * 有大量的行 3、短宽-高瘦的对比 短宽 短宽 * 使用列名进行查询不会跳过行或者存储文件 * 更好的原子性 * 不如高瘦设计的可扩展性 高瘦 高瘦 * 如果使用
阅读全文
摘要:HBase的rowKey设计技巧 1、设计宗旨与目标 主要目的就是针对特定的业务模型,按照rowKey进行预分区设计,使之后面加入的数据能够尽可能的分散于不同的rowKey中。比如复合RowKey。 作用: 一条数据的唯一标识就是rowkey,那么这条数据存储于哪个分区,取决于rowkey处于哪个一
阅读全文
摘要:MySQL安装与启动 JDK:要求jdk必须是1.7及以上版本 MySQL:推荐mysql是5.5以上版本 MySQL安装与启动步骤如下:( 步骤1-5省略 ) (1)将MySQL的服务端和客户端安装包(RPM)上传到服务器 (2)查询之前是否安装过MySQL (3)卸载旧版本MySQL (4)安装
阅读全文
摘要:开源数据库中间件-MyCat简介 如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB。对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求。这个时候NoSQL的出现暂时解决了这一危机。它通过降低数据的安全性,减少对事务的支持,减少对复杂查询的支持,
阅读全文
摘要:MySQL部署 拉取MySQL镜像 拉取MySQL镜像 查看镜像 创建MySQL容器 创建MySQL容器 -p 代表端口映射,格式为 宿主机映射端口:容器运行端口 -e 代表添加环境变量 MYSQL_ROOT_PASSWORD是root用户的登陆密码 进入MySQL容器,登陆MySQL 进入MySQ
阅读全文
摘要:备份与迁移 容器保存为镜像 容器保存为镜像 我们可以通过以下命令将容器保存为镜像 pyg_nginx是容器名称 mynginx是新的镜像名称 此镜像的内容就是你当前容器的内容,接下来你可以用此镜像再次运行新的容器 镜像备份 镜像备份 -o 输出到的文件 执行后,运行ls命令即可看到打成的tar包 镜
阅读全文
摘要:1 什么是Redis-Cluster 为何要搭建Redis集群。Redis是在内存中保存数据的,而我们的电脑一般内存都不大,这也就意味着Redis不适合存储大数据,适合存储大数据的是Hadoop生态系统的Hbase或者是MogoDB。Redis更适合处理高并发,一台设备的存储能力是很有限的,但是多台
阅读全文
摘要:正常情况下如果电脑已经联网的情况下,Spring的核心配置文件编写内容的时候是可以自动提示的,假设电脑如果离线情况下想要自动提示的话,就得配置离线约束文件。 https://blog.csdn.net/mChenys/article/details/88061497
阅读全文
摘要:<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:mvc="http://www.springframework.org/schema/mvc"
阅读全文
摘要:Tomcat的安装 下载Tomcat 官网 http://tomcat.apache.org/ 下载地址 http://tomcat.apache.org/download-70.cgi 启动Tomcat 进入tomcat/bin/startup.bat 测试Tomcat 打开浏览器输入以下地址:
阅读全文
摘要:在Properties中添加Name:archetypeCatalog和Value:internal,如下图那样 在Properties中添加Name:archetypeCatalog和Value:internal,如下图那样 在Properties中添加Name:archetypeCatalog和
阅读全文
摘要:<!-- spring中的依赖注入 依赖注入: Dependency Injection IOC的作用: 降低程序间的耦合(依赖关系) 依赖关系的管理: 以后都交给spring来维护 在当前类需要用到其他类的对象,由spring为我们提供,我们只需要在配置文件中说明 依赖关系的维护: 就称之为依赖注
阅读全文
摘要:config约束配置文件: <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybati
阅读全文
摘要:HBase的预分区 1、为何要预分区? 增加数据读写效率 负载均衡,防止数据倾斜 方便集群容灾调度region 优化Map数量 2、如何预分区? 每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。
阅读全文
摘要:HBase与Hive交互操作 1、环境准备 因为我们后续可能会在操作Hive的同时对HBase也会产生影响,所以Hive需要持有操作HBase的Jar,那么接下来拷贝Hive所依赖的Jar包(或者使用软连接的形式)。 同时在hive-site.xml中修改zookeeper的属性,如下: 2、案例1
阅读全文
摘要:HBase与Sqoop集成 案例:将RDBMS中的数据抽取到HBase中 Step1、配置sqoop-env.sh如下: Step2、在Mysql中创建一张数据库library,一张表book Step3、向表中插入一些数据 完成后如图: Step4、执行Sqoop导入数据的操作 Step5、在HB
阅读全文