2020 年 4月随笔档案 - DataBases

大数据量情况下数据的导入导出工具

2020-04-29 15:29 by DataBases, 532 阅读, 收藏, 编辑

摘要： IBM DB2 DB2 export Oracle SQLUDR2 Informix Unload SQL Server BCP MySQL mysqldump Sysbase BCP 阅读全文

0 Comment

数据倾斜及小文件合并

2020-04-23 10:55 by DataBases, 631 阅读, 收藏, 编辑

摘要：数据倾斜常见表现：在 hive 中 map 阶段早就跑完了， reduce 阶段一直卡在 99% 。很大情况是发生了数据倾斜，整个任务在等某个节点跑完。在spark 中大部分的 task 执行的特别快，剩下的一些 task 执行的特别慢，要几分钟或几十分钟才执行完一个 taskHive中大表 joi 阅读全文

0 Comment

Hbase相关总结

2020-04-19 21:07 by DataBases, 287 阅读, 收藏, 编辑

摘要： HBase 架构组件物理上，Hbase 是由三种类型的 server 组成的的主从式（master-slave）架构： Region Server 负责处理数据的读写请求，客户端请求数据时直接和 Region Server 交互。HBase Master 负责 Region 的分配，DDL（创建，阅读全文

0 Comment

数据仓库建模工具及ETL工具

2020-04-19 16:18 by DataBases, 6003 阅读, 收藏, 编辑

摘要：建模工具，一般企业以Erwin、powerdesigner、visio，甚至Excel等为主。 PowerDesigner 是Sybase的企业建模和设计解决方案，是能进行数据库设计的强大的软件，是一款开发人员常用的数据库建模工具。使用它可以分别从概念数据模型(Conceptual Data Mod 阅读全文

0 Comment

数据仓库逻辑分层

2020-04-19 16:01 by DataBases, 3369 阅读, 收藏, 编辑

摘要： OLTP 与 OLAPOLTP 联机事务处理OLTP是传统关系型数据库的主要应用，主要用于日常事物、交易系统的处理1、数据量存储相对来说不大2、实时性要求高，需要支持事物3、数据一般存储在关系型数据库 (oracle 或 mysql 、postgresql中)OLAP 联机分析处理OLAP是数据仓库阅读全文

0 Comment

大数据数据倾斜

2020-04-19 12:27 by DataBases, 801 阅读, 收藏, 编辑

摘要：什么是数据倾斜我们在用hive取数的时候，有的时候只是跑一个简单的join语句，但是却跑了很长的时间，有的时候我们会觉得是集群资源不够导致的，但是很大情况下就是出现了"数据倾斜"的情况。数据倾斜一般有两种情况：变量值很少：单个变量值的占比极大，常见的字段如性别、学历、年龄等。变量值很多：阅读全文

0 Comment

hive中的小文件问题

2020-04-19 12:10 by DataBases, 1607 阅读, 收藏, 编辑

摘要：小文件问题原因： ① 众所周知，小文件在HDFS中存储本身就会占用过多的内存空间，那么对于MR查询过程中过多的小文件又会造成启动过多的Mapper Task, 每个Mapper都是一个后台线程，会占用JVM的空间。 ② 在Hive中，动态分区会造成在插入数据过程中，生成过多零碎的小文件。 ③ 不合理阅读全文

0 Comment

数据仓库建模

2020-04-16 15:57 by DataBases, 1911 阅读, 收藏, 编辑

摘要：数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临，数据量暴增，阅读全文

0 Comment

Spark Cluster

2020-04-15 11:26 by DataBases, 322 阅读, 收藏, 编辑

摘要： (base) [root@pyspark sbin]# lsslaves.sh start-all.sh start-mesos-shuffle-service.sh start-thriftserver.sh stop-mesos-dispatcher.sh stop-slaves.shspark 阅读全文

0 Comment

Redis集群

2020-04-15 10:26 by DataBases, 428 阅读, 收藏, 编辑

摘要： 1.下载Redis安装包redis-5.0.5.tar.gz并放到/opt/目录下 2.所有Redis集群节点解压Redis安装包tar -zxvf redis-5.0.5.tar.gz 3.所有Redis集群节点安装Rediscd redis-5.0.5make && make install 4 阅读全文

0 Comment

Hive join优化

2020-04-10 18:29 by DataBases, 319 阅读, 收藏, 编辑

摘要： MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高JOIN效率方法一：在Hive0.11前，必须使用MAPJOIN来标记显示地启阅读全文

0 Comment

MapReduce手机流量统计

2020-04-10 14:55 by DataBases, 341 阅读, 收藏, 编辑

摘要： package com.yuejiesong.PhoneFlowCount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWri 阅读全文

0 Comment

MapReduce

2020-04-10 13:05 by DataBases, 183 阅读, 收藏, 编辑

摘要：在4个服务器中启动4个map任务每个map任务读取目标文件，每读一行就拆分一下单词，并记下来此单词出现了一次目标文件的每一行都处理完成后，需要把单词进行排序在3个服务器上启动reduce任务每个reduce获取一部分map的处理结果 reduce任务进行汇总统计，输出最终的结果数据 MapR 阅读全文

0 Comment

数据分析函数

2020-04-07 17:45 by DataBases, 187 阅读, 收藏, 编辑

摘要：想要的数据在多张表里，想取多个字段表连接join两张表数据的字段一样，想合并起来 union去重 distinct分组聚合函数和group by筛选 where(行)/having(组)希望查询结果从高到低/从低到高排序？—— 排序 order by将数值型的变量转化为分类型的变量？—— case 阅读全文

0 Comment

DataBases

随笔档案-2020年04月