2021年10月20日

3.HDFS存储系统

摘要: HDFS文件存储系统的构成: 每个block块大小为什么默认是128M? 计算机硬盘吞吐速度为128M左右。(CPU,磁盘,网卡之间的协同效率 即 跨物理机/机架之间文件传输速率) block块大小设计原则:最小化寻址开销,减少网络传输。 1. 如果块设置过大 第一点: 从磁盘传输数据的时间会明显大 阅读全文

posted @ 2021-10-20 19:17 理想三旬_z 阅读(219) 评论(0) 推荐(0) 编辑

2021年10月19日

MapReduce中的shuffle过程

摘要: 1.Map task输出k-v对 2.环形缓冲区 map阶段在最后会通过MapOutputBuffer来将数据暂时存储到一个环形缓冲区,在缓冲区写入的数据达到阈值(80%)后,才会开始从这里再写出到磁盘(落盘)。由此可见:环形缓冲区的设计直接影响Map Task的输出效率。 上面大致的流程中,我们不 阅读全文

posted @ 2021-10-19 23:02 理想三旬_z 阅读(328) 评论(0) 推荐(0) 编辑

2021年10月15日

总结Hadoop框架

摘要: 零零整整接触了很久Hadoop框架以及它的生态圈,在此做一个总结。 1.首先来认识下Hadoop: Hadoop是一个由Apache基金会所开发的分布式系统的基础架构。它实现了一个分布式文件系统(Hadoop Distributed File System ==> HDFS)。 HDFS有高容错性的 阅读全文

posted @ 2021-10-15 23:17 理想三旬_z 阅读(167) 评论(0) 推荐(0) 编辑

Scala基础(一)

摘要: 一、什么是Scala: 直观的来说,加强版Java。一种以Java虚拟机(JVM)为运行环境的静态类型编程语言。可以直接使用Java的类库。(拥有者强大的编译器) 特点:面向对象,函数式编程 Scala有三类事务,Class、Object、Trait。在Scala中把静态的和非静态的严格分开 Cla 阅读全文

posted @ 2021-10-15 22:52 理想三旬_z 阅读(122) 评论(0) 推荐(0) 编辑

2021年10月14日

Oracle的存储过程

摘要: 一、什么是存储过程? 存储过程就是一组为了完成特定功能的SQL语句集,存储在数据库中;这样经过第一次编译后再次调用不需要再次编译,直接调用或者通过java掉用(就是个SQL语句集) 在Oracle中存储过程是procedure 优势: 1. 相比普通的sql语句,每次都要先编译在执行,相对而言存储过 阅读全文

posted @ 2021-10-14 20:20 理想三旬_z 阅读(2640) 评论(0) 推荐(0) 编辑

2021年10月9日

Scala的本地安装及idea中的插件配置

摘要: Scala的本地环境以及idea上的插件下载 (idea内部也可下载插件,但是太慢...) 1. 首先现在本地安装好scala,(傻瓜式安装,这里略,建议安装在默认系统盘),不需要配置环境变量。然后去dos命令下查看: 2. 下载与你idea版本一致(没有就找最近的)的Scala插件,自行百度下载, 阅读全文

posted @ 2021-10-09 11:30 理想三旬_z 阅读(241) 评论(0) 推荐(0) 编辑

2021年10月8日

sqoop的配置与使用

摘要: 一、sqoop的安装 1. 先将sqoop的压缩包上传至/opt里面,执行解压 tar -zxvf /opt/download/hadoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/soft/sqoop146 2. 进入到conf目录下, 阅读全文

posted @ 2021-10-08 13:38 理想三旬_z 阅读(307) 评论(0) 推荐(0) 编辑

2021年10月6日

3.HBase常用命令与实操

摘要: 启动顺序: Hadoop(start-all.sh) zookeeper (zkServer.sh start) hbase (start-hbase.sh) jps看下进程: DDL: 创建命名空间: create_namespace '命名空间' 查看命名空间: describe_namespa 阅读全文

posted @ 2021-10-06 15:10 理想三旬_z 阅读(207) 评论(0) 推荐(0) 编辑

2021年10月5日

3.HIve中导入、导出数据的几种方式

摘要: 一、往HIVE表中导入导出数据 1.建表时直接导入: 如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可 CREATE [EXTERNAL] TABLE t_lxw1234 ( day 阅读全文

posted @ 2021-10-05 15:10 理想三旬_z 阅读(1674) 评论(0) 推荐(0) 编辑

2021年9月29日

5.Hive常用函数

摘要: 首先要明确的是:hive中的函数包括内置函数和自定义函数;而内置函数又包括:简单函数(map阶段),聚合函数(reduce阶段),集合函数(map阶段),特殊函数。而自定义函数又包括:UDF(map阶段),UDAF(reduce阶段)。 内置函数: 不一一列举,查看语句如下: show functi 阅读全文

posted @ 2021-09-29 19:22 理想三旬_z 阅读(84) 评论(0) 推荐(0) 编辑

导航