2019 年 6月随笔档案 - zhangqi0828

spark的shuffle和原理分析

摘要：spark的shuffle和原理分析 1 、概述 Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂。在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce；而Reduce阶阅读全文

posted @ 2019-06-27 01:09 zhangqi0828 阅读(1074) 评论(0) 推荐(0) 编辑

spark的任务调度模式

摘要：spark任务调度和资源分配 1、Spark调度模式 FIFO和FAIR Spark中的调度模式主要有两种：FIFO和FAIR。默认情况下Spark的调度模式是FIFO（先进先出），谁先提交谁先执行，后面的任务需要等待前面的任务执行。而FAIR（公平调度）模式支持在调度池中为任务进行分组，不同的阅读全文

posted @ 2019-06-27 01:06 zhangqi0828 阅读(1036) 评论(0) 推荐(0) 编辑

spark面试问题收集

摘要：spark面试问题 1、spark中的RDD是什么，有哪些特性 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset：就是一个集合，用于存放数据的 Distri 阅读全文

posted @ 2019-06-26 23:41 zhangqi0828 阅读(877) 评论(0) 推荐(0) 编辑

hive自定义函数UDF UDTF UDAF

摘要：Hive 自定义函数 UDF UDTF UDAF 1.UDF：用户定义（普通）函数，只对单行数值产生作用； UDF只能实现一进一出的操作。定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, D 阅读全文

posted @ 2019-06-23 15:04 zhangqi0828 阅读(534) 评论(0) 推荐(0) 编辑

hive UDAF开发和运行全过程

摘要：介绍 hive的用户自定义聚合函数（UDAF）是一个很好的功能，集成了先进的数据处理。hive有两种UDAF：简单和通用。顾名思义，简单的UDAF，写的相当简单的，但因为使用Java反射导致性能损失，而且有些特性不能使用，如可变长度参数列表。通用UDAF可以使用所有功能，但是UDAF就写的比较复阅读全文

posted @ 2019-06-23 14:54 zhangqi0828 阅读(1178) 评论(0) 推荐(0) 编辑

hive的调优

摘要：调优 1 Fetch抓取（Hive可以避免进行MapReduce） Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive- 阅读全文

posted @ 2019-06-19 16:28 zhangqi0828 阅读(292) 评论(0) 推荐(0) 编辑

flink详细介绍

摘要：Flink是什么 Flink是一个分布式计算引擎 MapReduce Spark Storm 同时支持流计算和批处理和Spark不同, Flink是使用流的思想做批, Spark是采用做批的思想做流 Flink的优势和Hadoop相比, Flink使用内存进行计算, 速度明显更优和同样使用内存阅读全文

posted @ 2019-06-16 17:45 zhangqi0828 阅读(540) 评论(0) 推荐(0) 编辑

JVM典型配置和调优举例

摘要：1. 堆设置-Xms：：初始堆大小。-Xmx：：最大堆大小。-XX:NewSize=n：：设置年轻代大小。-XX:NewRatio=n：：：设置年轻代和年老代的比值。如:为 3，表示年轻代与年老代比值为 1：3，年轻代占整个年轻代年老代和的 1/4。-XX:SurvivorRatio=n：阅读全文

posted @ 2019-06-16 01:33 zhangqi0828 阅读(292) 评论(0) 推荐(0) 编辑

HUE工具使用

摘要：1、HUE简介来源 HUE=HadoopUser Experience，看这名字就知道怎么回事了吧，没错，直白来说就是Hadoop用户体验，是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoo 阅读全文

posted @ 2019-06-16 01:26 zhangqi0828 阅读(7351) 评论(0) 推荐(0) 编辑

经典sql题练习50题

摘要：https://blog.csdn.net/mrbcy/article/details/68965271 https://blog.csdn.net/fashion2014/article/details/78826299 阅读全文

posted @ 2019-06-15 15:14 zhangqi0828 阅读(414) 评论(0) 推荐(0) 编辑

配置Redis集群为开机自启动

摘要：vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc 将下方脚本写入redis 阅读全文

posted @ 2019-06-12 10:30 zhangqi0828 阅读(2290) 评论(2) 推荐(2) 编辑

Hbase表类型的设计

摘要：HBase表类型的设计 1、短宽这种设计一般适用于： * 有大量的列 * 有很少的行 2、高瘦这种设计一般适用于： * 有很少的列 * 有大量的行 3、短宽-高瘦的对比短宽短宽 * 使用列名进行查询不会跳过行或者存储文件 * 更好的原子性 * 不如高瘦设计的可扩展性高瘦高瘦 * 如果使用阅读全文

posted @ 2019-06-10 16:39 zhangqi0828 阅读(509) 评论(0) 推荐(0) 编辑

Hbase的rowkey设计

摘要：HBase的rowKey设计技巧 1、设计宗旨与目标主要目的就是针对特定的业务模型，按照rowKey进行预分区设计，使之后面加入的数据能够尽可能的分散于不同的rowKey中。比如复合RowKey。作用:　一条数据的唯一标识就是rowkey，那么这条数据存储于哪个分区，取决于rowkey处于哪个一阅读全文

posted @ 2019-06-10 16:39 zhangqi0828 阅读(355) 评论(0) 推荐(0) 编辑

mycat的下载和安装

摘要：MySQL安装与启动 JDK：要求jdk必须是1.7及以上版本 MySQL：推荐mysql是5.5以上版本 MySQL安装与启动步骤如下：( 步骤1-5省略 ) （1）将MySQL的服务端和客户端安装包（RPM）上传到服务器（2）查询之前是否安装过MySQL （3）卸载旧版本MySQL （4）安装阅读全文

posted @ 2019-06-08 15:58 zhangqi0828 阅读(3560) 评论(0) 推荐(0) 编辑

mycat简介

摘要：开源数据库中间件-MyCat简介如今随着互联网的发展，数据的量级也是撑指数的增长，从GB到TB到PB。对数据的各种操作也是愈加的困难，传统的关系性数据库已经无法满足快速查询与插入数据的需求。这个时候NoSQL的出现暂时解决了这一危机。它通过降低数据的安全性，减少对事务的支持，减少对复杂查询的支持，阅读全文

posted @ 2019-06-08 15:54 zhangqi0828 阅读(170) 评论(0) 推荐(0) 编辑

mysql|tomcat|nginx|redis在docker中的部署

摘要：MySQL部署拉取MySQL镜像拉取MySQL镜像查看镜像创建MySQL容器创建MySQL容器 -p 代表端口映射，格式为宿主机映射端口:容器运行端口 -e 代表添加环境变量 MYSQL_ROOT_PASSWORD是root用户的登陆密码进入MySQL容器,登陆MySQL 进入MySQ 阅读全文

posted @ 2019-06-08 11:41 zhangqi0828 阅读(444) 评论(0) 推荐(0) 编辑

docker的备份和迁移

摘要：备份与迁移容器保存为镜像容器保存为镜像我们可以通过以下命令将容器保存为镜像 pyg_nginx是容器名称 mynginx是新的镜像名称此镜像的内容就是你当前容器的内容，接下来你可以用此镜像再次运行新的容器镜像备份镜像备份 -o 输出到的文件执行后，运行ls命令即可看到打成的tar包镜阅读全文

posted @ 2019-06-08 11:24 zhangqi0828 阅读(9291) 评论(0) 推荐(1) 编辑

Redis Cluster集群详介绍和伪集群搭建

摘要：1 什么是Redis-Cluster 为何要搭建Redis集群。Redis是在内存中保存数据的，而我们的电脑一般内存都不大，这也就意味着Redis不适合存储大数据，适合存储大数据的是Hadoop生态系统的Hbase或者是MogoDB。Redis更适合处理高并发，一台设备的存储能力是很有限的，但是多台阅读全文

posted @ 2019-06-07 12:52 zhangqi0828 阅读(477) 评论(0) 推荐(0) 编辑

xml配置离线约束的目的和ecplipse离线约束配置

摘要：正常情况下如果电脑已经联网的情况下，Spring的核心配置文件编写内容的时候是可以自动提示的，假设电脑如果离线情况下想要自动提示的话，就得配置离线约束文件。 https://blog.csdn.net/mChenys/article/details/88061497 阅读全文

posted @ 2019-06-06 17:14 zhangqi0828 阅读(263) 评论(0) 推荐(0) 编辑

springmvc配置文件

摘要：<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:mvc="http://www.springframework.org/schema/mvc" 阅读全文

posted @ 2019-06-04 23:36 zhangqi0828 阅读(137) 评论(0) 推荐(0) 编辑

tomcat的安装

摘要：Tomcat的安装下载Tomcat 官网 http://tomcat.apache.org/ 下载地址 http://tomcat.apache.org/download-70.cgi 启动Tomcat 进入tomcat/bin/startup.bat 测试Tomcat 打开浏览器输入以下地址：阅读全文

posted @ 2019-06-04 23:02 zhangqi0828 阅读(95) 评论(0) 推荐(0) 编辑

IntelliJ IDEA创建Maven web项目速度慢的解决方法

摘要：在Properties中添加Name:archetypeCatalog和Value:internal,如下图那样在Properties中添加Name:archetypeCatalog和Value:internal,如下图那样在Properties中添加Name:archetypeCatalog和阅读全文

posted @ 2019-06-04 22:34 zhangqi0828 阅读(760) 评论(0) 推荐(0) 编辑

spring的注入

摘要：<!-- spring中的依赖注入依赖注入： Dependency Injection IOC的作用：降低程序间的耦合（依赖关系）依赖关系的管理：以后都交给spring来维护在当前类需要用到其他类的对象，由spring为我们提供，我们只需要在配置文件中说明依赖关系的维护：就称之为依赖注阅读全文

posted @ 2019-06-04 17:37 zhangqi0828 阅读(275) 评论(0) 推荐(0) 编辑

约束文件配置

摘要：config约束配置文件： <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybati 阅读全文

posted @ 2019-06-02 14:51 zhangqi0828 阅读(398) 评论(0) 推荐(0) 编辑

Hbase预分区

摘要：HBase的预分区 1、为何要预分区？增加数据读写效率负载均衡，防止数据倾斜方便集群容灾调度region 优化Map数量 2、如何预分区？每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护。阅读全文

posted @ 2019-06-01 19:47 zhangqi0828 阅读(3044) 评论(0) 推荐(0) 编辑

HBase与Hive交互操作案例

摘要：HBase与Hive交互操作 1、环境准备因为我们后续可能会在操作Hive的同时对HBase也会产生影响，所以Hive需要持有操作HBase的Jar，那么接下来拷贝Hive所依赖的Jar包（或者使用软连接的形式）。同时在hive-site.xml中修改zookeeper的属性，如下： 2、案例1 阅读全文

posted @ 2019-06-01 19:46 zhangqi0828 阅读(642) 评论(0) 推荐(0) 编辑

HBase与Sqoop集成案例

摘要：HBase与Sqoop集成案例：将RDBMS中的数据抽取到HBase中 Step1、配置sqoop-env.sh如下： Step2、在Mysql中创建一张数据库library，一张表book Step3、向表中插入一些数据完成后如图： Step4、执行Sqoop导入数据的操作 Step5、在HB 阅读全文

posted @ 2019-06-01 19:46 zhangqi0828 阅读(326) 评论(0) 推荐(0) 编辑

zhangqi

be a coder

06 2019 档案

公告

搜索

常用链接

我的标签

积分与排名

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论