世界上最牛逼的人是谁

摘要: Scoop是用来实现HDFS文件系统和关系型数据库如MySQL之间数据传输和转换的工具。 从MySQL导出到HDFS可以通过--table, --columns and --where等设置数据抽出的条件。但是同时也只是自由sql语句(Free-form Query )的方式抽出数据。此时我们用-- 阅读全文
posted @ 2017-11-10 13:59 站在浪潮之巅 阅读(11020) 评论(0) 推荐(0) 编辑
摘要: 网上相关教程很多,这里我主要是简单总结下几种常用的方法,方便日后查询。 第一种,在bash中直接通过hive -e命令,并用 > 输出流把执行结果输出到制定文件 第二种,在bash中直接通过hive -f命令,执行文件中一条或者多条sql语句。并用 > 输出流把执行结果输出到制定文件 第三种,在hi 阅读全文
posted @ 2017-11-09 15:11 站在浪潮之巅 阅读(32777) 评论(0) 推荐(1) 编辑
摘要: 我们学习一下分桶表,其实分区和分桶这两个概念对于初学者来说是比较难理解的。但对于理解了的人来说,发现又是如此简单。 我们先建立一个分桶表,并尝试直接上传一个数据 我们看到虽然设置了强制分桶,但实际student表下面只有一个students一个文件。分桶也就是分区,分区数量等于文件数,所以上面方法并 阅读全文
posted @ 2017-11-09 14:41 站在浪潮之巅 阅读(24782) 评论(0) 推荐(1) 编辑
摘要: 建表相关语句在此,具体的数据自己制作吧 第一题:理解distribute by 分区。sort by 和 order by的区别 第二题,理解夺标关联join的使用,注意join的顺序 第三题,请理解on和where的区别 第四题,理解左外连接,其实就是sql语法 阅读全文
posted @ 2017-11-09 12:02 站在浪潮之巅 阅读(6244) 评论(1) 推荐(0) 编辑
摘要: HIVE既然是运行在hadoop上,最后又被翻译为MapReduce程序,通过yarn来执行。所以我们如果想解决HIVE中出现的错误,需要分成几个过程 2,3过程中的错误,请参考hadoop相关的教程,这里只是提醒大家思考的时候需要考虑到这两个方面的原因。搞清楚哪一个过程出问题之后采取进一步分析。 阅读全文
posted @ 2017-11-08 19:08 站在浪潮之巅 阅读(34660) 评论(0) 推荐(0) 编辑
摘要: 这段时间做hive的时候,用到了系统默认分隔符。通常下面2中情况我们需要需要用到分隔符 1,制作table的输入文件,有时候我们需要输入一些特殊的分隔符 2,把hive表格导出到本地时,系统默认的分隔符是^A,这个是特殊字符,直接cat或者vim是看不到的 分隔符在HIVE中的用途 分隔符 描述 \ 阅读全文
posted @ 2017-11-08 18:51 站在浪潮之巅 阅读(48581) 评论(0) 推荐(1) 编辑
摘要: 在执行一条HIVE语句的时候报了以下错误,重新检查了所有步骤,重启所有服务,发现没有问题。 但发现一个有趣的事情 1,select sno,sname,sex,sage,sdept from student可以正常执行 2,sno,sname,sex,sage,sdept from student 阅读全文
posted @ 2017-11-08 18:14 站在浪潮之巅 阅读(1939) 评论(0) 推荐(0) 编辑
摘要: HIVE中的分区表是什么,我们先看操作,然后再来体会。 接下来我们创建要给分区 上面语句的效果是在hdfs系统上建立了一个层级目录 -logs -dt=2001-01-01 -country=GB 我们到HDFS上查看,发现建立了下面层级目录 /user/hive/warehouse/logs├── 阅读全文
posted @ 2017-11-07 23:21 站在浪潮之巅 阅读(46460) 评论(0) 推荐(3) 编辑
摘要: 本文是《hadoop权威指南》关于hive的小例子,通过这个例子可以很好地看出来hive是个什么东西。 前提是已经配置好hive的远程连接版本的环境,我是用了MYSQL数据库保存元数据。 环境要求: -配置好了Hadoop的HDFS文件系统,启动hdfs和yarn -配置好了hive的远程连接模式 阅读全文
posted @ 2017-11-07 12:15 站在浪潮之巅 阅读(776) 评论(0) 推荐(0) 编辑