摘要:
IBM DB2 DB2 export Oracle SQLUDR2 Informix Unload SQL Server BCP MySQL mysqldump Sysbase BCP 阅读全文
随笔档案-2020年04月
数据倾斜及小文件合并
2020-04-23 10:55 by DataBases, 631 阅读, 收藏, 编辑
摘要:
数据倾斜常见表现:在 hive 中 map 阶段早就跑完了, reduce 阶段一直卡在 99% 。很大情况是发生了数据倾斜,整个任务在等某个节点跑完。在spark 中大部分的 task 执行的特别快,剩下的一些 task 执行的特别慢,要几分钟或几十分钟才执行完一个 taskHive中大表 joi 阅读全文
Hbase相关总结
2020-04-19 21:07 by DataBases, 287 阅读, 收藏, 编辑
摘要:
HBase 架构组件 物理上,Hbase 是由三种类型的 server 组成的的主从式(master-slave)架构: Region Server 负责处理数据的读写请求,客户端请求数据时直接和 Region Server 交互。HBase Master 负责 Region 的分配,DDL(创建, 阅读全文
数据仓库建模工具及ETL工具
2020-04-19 16:18 by DataBases, 6003 阅读, 收藏, 编辑
摘要:
建模工具,一般企业以Erwin、powerdesigner、visio,甚至Excel等为主。 PowerDesigner 是Sybase的企业建模和设计解决方案,是能进行数据库设计的强大的软件,是一款开发人员常用的数据库建模工具。使用它可以分别从概念数据模型(Conceptual Data Mod 阅读全文
数据仓库逻辑分层
2020-04-19 16:01 by DataBases, 3369 阅读, 收藏, 编辑
摘要:
OLTP 与 OLAPOLTP 联机事务处理OLTP是传统关系型数据库的主要应用,主要用于日常事物、交易系统的处理1、数据量存储相对来说不大2、实时性要求高,需要支持事物3、数据一般存储在关系型数据库 (oracle 或 mysql 、postgresql中)OLAP 联机分析处理OLAP是数据仓库 阅读全文
大数据数据倾斜
2020-04-19 12:27 by DataBases, 801 阅读, 收藏, 编辑
摘要:
什么是数据倾斜 我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾斜"的情况。 数据倾斜一般有两种情况: 变量值很少: 单个变量值的占比极大,常见的字段如性别、学历、年龄等。 变量值很多: 阅读全文
hive中的小文件问题
2020-04-19 12:10 by DataBases, 1607 阅读, 收藏, 编辑
摘要:
小文件问题原因: ① 众所周知,小文件在HDFS中存储本身就会占用过多的内存空间,那么对于MR查询过程中过多的小文件又会造成启动过多的Mapper Task, 每个Mapper都是一个后台线程,会占用JVM的空间。 ② 在Hive中,动态分区会造成在插入数据过程中,生成过多零碎的小文件。 ③ 不合理 阅读全文
数据仓库建模
2020-04-16 15:57 by DataBases, 1911 阅读, 收藏, 编辑
摘要:
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增, 阅读全文
Spark Cluster
2020-04-15 11:26 by DataBases, 322 阅读, 收藏, 编辑
摘要:
(base) [root@pyspark sbin]# lsslaves.sh start-all.sh start-mesos-shuffle-service.sh start-thriftserver.sh stop-mesos-dispatcher.sh stop-slaves.shspark 阅读全文
Redis集群
2020-04-15 10:26 by DataBases, 428 阅读, 收藏, 编辑
摘要:
1.下载Redis安装包redis-5.0.5.tar.gz并放到/opt/目录下 2.所有Redis集群节点解压Redis安装包tar -zxvf redis-5.0.5.tar.gz 3.所有Redis集群节点安装Rediscd redis-5.0.5make && make install 4 阅读全文
Hive join优化
2020-04-10 18:29 by DataBases, 319 阅读, 收藏, 编辑
摘要:
MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率 方法一: 在Hive0.11前,必须使用MAPJOIN来标记显示地启 阅读全文
MapReduce手机流量统计
2020-04-10 14:55 by DataBases, 341 阅读, 收藏, 编辑
摘要:
package com.yuejiesong.PhoneFlowCount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWri 阅读全文
MapReduce
2020-04-10 13:05 by DataBases, 183 阅读, 收藏, 编辑
摘要:
在4个服务器中启动4个map任务 每个map任务读取目标文件,每读一行就拆分一下单词,并记下来此单词出现了一次 目标文件的每一行都处理完成后,需要把单词进行排序 在3个服务器上启动reduce任务 每个reduce获取一部分map的处理结果 reduce任务进行汇总统计,输出最终的结果数据 MapR 阅读全文
数据分析函数
2020-04-07 17:45 by DataBases, 187 阅读, 收藏, 编辑
摘要:
想要的数据在多张表里,想取多个字段 表连接join两张表数据的字段一样,想合并起来 union去重 distinct分组聚合函数和group by筛选 where(行)/having(组)希望查询结果从高到低/从低到高排序?—— 排序 order by将数值型的变量转化为分类型的变量?—— case 阅读全文