摘要: 我们从这里开始? what is hive? Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。那么,到底什么是Hive,我们先看看Hive官网Wiki是如何介绍Hive的: https://cwiki.apache.org/confluence/ 阅读全文
posted @ 2019-07-25 17:30 王坤华的博客 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 一 为什么要学习HIVE? 为什么不是ORACLE和MYSQL? 因为大数据时代 数据量成几何倍数增长,并且数据量非常庞大。大到要用PB EB这种量级去衡量。而我们的ORACLE/MYQL这种数据库是TB级数据库,所以远远的达不到大数据时代对数据的要求。 还有由于大数据工程师主要来自两个方向: 第一 阅读全文
posted @ 2019-07-25 17:18 王坤华的博客 阅读(610) 评论(0) 推荐(0) 编辑
摘要: HIVE的连接模式== 本地连接模式 直接启动hive命令 HIVE的远程连接 这里要启动HIVE的服务 thirft进行编写 hiveserver2 —- > 前台启动 后台启动 前台启动 hiveserver2 后台启动 hiveserver2 & beeline !connect jdbc:h 阅读全文
posted @ 2019-07-25 17:17 王坤华的博客 阅读(4927) 评论(0) 推荐(0) 编辑
摘要: 分区表 在Hive Select查询中,一般会扫描整个表内容(HDFS上文件的内容),会消耗很多时间做没必要的工作。分区表指的是在创建表时,指定partition的分区空间。 庞大的数据集可能需要耗费大量的时间去处理。在许多场景下,可以通过分区或切片的方法减少每一次扫描总数据量,这种做法可以显著地改 阅读全文
posted @ 2019-07-25 17:15 王坤华的博客 阅读(667) 评论(0) 推荐(0) 编辑
摘要: CREATE TABLE A (X STRING); CREATE TABLE () 语句已经定义完成。数据库定义完成。进行直接解释 select找一张表的流程 表所在的库 >在库下找所在的表 HIVE CREATE TABLE A (wangxiaojia int); MYSQL INERT IN 阅读全文
posted @ 2019-07-25 17:13 王坤华的博客 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 1 老三样 2 开启hadoop 完全开启 start-all.sh 3 确认我们的MYSQL处在工作状态 4 修改HIVE的配置文件 cd /usr/local/hive/conf hive-2.x cp hive-env.sh.template hive-env.sh cp hive-defau 阅读全文
posted @ 2019-07-25 17:08 王坤华的博客 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 创建个文件 [root@hadoop ~]# cat ceshi.txt 1 北京 2 上海 3 广东 4 深圳 查看占用多少空间 hadoop fs -df -h 将文件放入hdfs #文件名 #自己起名 hadoop fs -put ceshi.txt /ceshi.txt hadoop fs 阅读全文
posted @ 2019-02-27 13:57 王坤华的博客 阅读(178) 评论(0) 推荐(0) 编辑