摘要: 用于记录Linux的相关概念以及常用命令,以便日后查询,以Ubuntu为例。 概念之间无先后顺序,只是用于记录。 1. 163软件源 笔者一般使用Ubuntu自带的软件源,自做镜像,若遇到要更换国内源的情况,可以参考 2. 琐碎知识点 安装Ubuntu时创建的用户是在sudo组下的,所以,具有sud 阅读全文
posted @ 2017-11-02 14:58 sqdmydxf 阅读(250) 评论(0) 推荐(0) 编辑
摘要: Hive对于表的操作大部分都是转换为MR作业的形式,为了提高OLAP[online analysis process 在线分析处理]的效率,Hive自身给出了很多的优化策略 1. explain[解释执行计划] 通过explain命令,可以查看Hive语句的操作情况,是否为慢查询,是否走索引,一目了 阅读全文
posted @ 2017-11-02 14:30 sqdmydxf 阅读(2947) 评论(0) 推荐(1) 编辑
摘要: Hive中的表有多种类型,每种类型的表都有其适用的场景 用于记录每种表的特性,创建方式以及一些注意事项 1. internal/managed[内部表/托管表] 由Hive完全管理表和数据的生命周期默认创建的表是内部表删除表的时候,数据也被删除 2. external[外部表] 是由LOCATION 阅读全文
posted @ 2017-11-02 14:09 sqdmydxf 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 用于记录Hive的原理说明、常用命令、以及优化,以便日后查询。 1. Hive概述 a. Hive是一个数据仓库的软件,用来管理大量的数据集,对其进行数据统计分析 b. Hive并不是数据库,它和数据库的应用场景不同,数据库适用于OLTP[online transaction process 在线事 阅读全文
posted @ 2017-11-02 12:01 sqdmydxf 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 用于记录Hive的安装过程,以便日后查询。 1. jdk[略] 2. hadoop[略] 3. 下载Hive,apache官网 4. 安装Hive[tar] --> 设置软链接 5. 配置Hive[matestore database: MySql] 6. 启动Hive 使用mysql数据库进行初始 阅读全文
posted @ 2017-11-02 11:39 sqdmydxf 阅读(409) 评论(0) 推荐(0) 编辑