不像话

2022年3月21日

摘要：数据库模式数据库系统采用三级模式结构，这是数据库管理系统内部的系统结构。数据库系统设计员可在视图层、逻辑层和物理层对数据抽象，通过外模式、模式和内模式来描述不同层次上的数据特性。 1.模式模式也称概念模式，是数据库中全部数据的逻辑结构和特征的描述，它是由若干个概念记录类型组成，只涉及行的描述，阅读全文

posted @ 2022-03-21 18:36 不像话阅读(1315) 评论(0) 推荐(0)

2022年3月3日

HBase与Hive对比

摘要： Hive 数据仓库 Hive的本质其实就相当于HDFS中已经存储的文件在MySql中做了一个双射关系，以方便使用HQL去管理查询。用于数据分析、清洗 Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce Hive存储的数据依旧在DataNode上，编写的HQL语句终将是阅读全文

posted @ 2022-03-03 17:16 不像话阅读(137) 评论(0) 推荐(0)

Hbase查看解析HFile

摘要：使用HBase自带的命令参数查看HFile： ${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.io.hfile.HFile usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] 阅读全文

posted @ 2022-03-03 15:20 不像话阅读(196) 评论(0) 推荐(0)

2022年2月27日

数据库中几种排序比较

摘要： order by 全局排序 sort by 区内排序结合多个分区使用 distribute by 分区排序默认分区规则 Hash cluster by 当distribute by和sorts by字段相同时，可以使用cluster by方式。阅读全文

posted @ 2022-02-27 15:30 不像话阅读(112) 评论(0) 推荐(0)

数据库中几种连接的区别

摘要：阅读全文

posted @ 2022-02-27 15:07 不像话阅读(93) 评论(0) 推荐(0)

2022年2月25日

Hive笔记

摘要：什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层阅读全文

posted @ 2022-02-25 10:18 不像话阅读(95) 评论(0) 推荐(0)

2022年2月16日

Hadoop新特性

摘要： Hadoop2.x新特性集群间数据拷贝采用distcp命令实现两个Hadoop集群之间的递归数据复制小文件存档回收站 Hadoop3.x新特性多NN的HA架构：多个NameNode高可用纠删码：能够在不到50%的数据冗余情况下提供和3副本相同的容错能力。阅读全文

posted @ 2022-02-16 21:29 不像话阅读(70) 评论(0) 推荐(0)

MapReduce跑的慢的原因

摘要： MapReduce程序效率的瓶颈在于两点： 1.计算机性能 CPU、内存、磁盘健康、网络。 2.I/O操作优化 ①数据倾斜 ②Map和Reduce数设置不合理 ③Map允许时间太长，导致Reduce等待太久 ④小文件过多 ⑤大量的不可切片的超大压缩文件 ⑥Spill次数过多 ⑦Merge次数过多从阅读全文

posted @ 2022-02-16 21:16 不像话阅读(688) 评论(0) 推荐(0)

2022年2月14日

数据库中平凡/非平凡函数依赖

摘要：平凡的函数依赖：如果关系上的一个约束对所有关系实例都成立，且与其他约束无关，则称其为平凡的。例如：A1 A2 ... An->B1 B2 ... Bm，其中{B1,B2,...,Bm}⊆{A1,A2,...,An}，也就是说，平凡FD的右边是左边的子集。即整体可以决定部分。 A1 A2 ... A 阅读全文

posted @ 2022-02-14 10:13 不像话阅读(1474) 评论(0) 推荐(0)

2022年2月13日

各种循环结构的区别

摘要：循环结构 while语句先判断条件在进入循环体。 for语句先判断条件，再进入循环体，再执行增量表达式。 do while语句先执行循环体，再判断条件。阅读全文

posted @ 2022-02-13 13:55 不像话阅读(104) 评论(0) 推荐(0)

数据库中函数依赖

摘要：属性集合的闭包假设{A1,A2,...,An}是属性集合，S是FD的集合。则S集合下的属性集合{A1,A2,...,An}的闭包是满足下面条件的属性集合B，即使得每一个满足S中所有FD的关系，也同样满足A1 A2 ... An->B。也就是说A1 A2 .... An->B能由S中的FD推断出来。阅读全文

posted @ 2022-02-13 11:41 不像话阅读(730) 评论(0) 推荐(0)

2022年2月9日

MapReduce工作流程

摘要：上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：（1）MapTask收集map()方法输出的kv对，放到内存缓冲区中（2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件（3）多个溢出文件会被合并成大的阅读全文

posted @ 2022-02-09 21:14 不像话阅读(526) 评论(0) 推荐(0)

2022年2月8日

Hadoop中DataNode多目录配置

摘要： 1）DataNode可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本 2）具体配置如下（1）在hdfs-site.xml文件中添加如下内容 <property> <name>dfs.datanode.data.dir</name> <value>file://${hadoop.tmp 阅读全文

posted @ 2022-02-08 21:34 不像话阅读(438) 评论(0) 推荐(0)

Hadoop新节点服/退役

摘要：当需要在原有集群基础上动态添加新的数据节点时，需要进行如下操作：环境准备（1）在hadoop主机上再克隆一台hadoop1主机（可以直接安装一个）（2）修改IP地址和主机名称（3）删除原来HDFS文件系统留存的文件（/opt/module/hadoop-3.1.3/data和logs）（可以阅读全文

posted @ 2022-02-08 21:31 不像话阅读(303) 评论(0) 推荐(0)

HDFS中DataNode工作机制

摘要：（1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。（2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。（3）心跳是每3秒一次，心跳返回结阅读全文

posted @ 2022-02-08 20:58 不像话阅读(89) 评论(0) 推荐(0)

公告