随笔分类 -  数据仓库

摘要:由于Spark是在Hadoop家族之上发展出来的,因此底层为了兼容hadoop,支持了多种的数据格式。如S3、HDFS、Cassandra、HBase,有了这些数据的组织形式,数据的来源和存储都可以多样化~ 阅读全文
posted @ 2016-09-05 22:41 xingoo 阅读(1829) 评论(0) 推荐(0) 编辑
摘要:了解Hive的都知道Hive有三种使用方式——CLI命令行,HWI(hie web interface)浏览器 以及 Thrift客户端连接方式。 为了体验下HWI模式,特意查询了多方的资料,都没有一个完整的部署方案,经过一下午的踩坑,这里特意总结一下,希望为后人节省点时间。 先放个图兴奋一下! 参 阅读全文
posted @ 2016-08-31 18:48 xingoo 阅读(10971) 评论(1) 推荐(0) 编辑
摘要:一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识。那么,一般对陌生事物的认知都会经历下面几个阶段: 为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通? 我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料。第三个问题,就得慢慢靠实 阅读全文
posted @ 2016-08-30 22:01 xingoo 阅读(9274) 评论(2) 推荐(4) 编辑
摘要:SQL里面通常都会用Join来连接两个表,做复杂的关联查询。比如用户表和订单表,能通过join得到某个用户购买的产品;或者某个产品被购买的人群.... Hive也支持这样的操作,而且由于Hive底层运行在hadoop上,因此有很多地方可以进行优化。比如小表到大表的连接操作、小表进行缓存、大表进行避免 阅读全文
posted @ 2016-08-24 22:13 xingoo 阅读(25525) 评论(0) 推荐(2) 编辑
摘要:Hive作为大数据环境下的数据仓库工具,支持基于hadoop以sql的方式执行mapreduce的任务,非常适合对大量的数据进行全量的查询分析。 本文主要讲述下hive载cli中如何导入导出数据: 导入数据 第一种方式,直接从本地文件系统导入数据 我的本机有一个test1.txt文件,这个文件中有三 阅读全文
posted @ 2016-08-23 22:26 xingoo 阅读(14504) 评论(0) 推荐(4) 编辑
摘要:Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的。只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api。 在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客 阅读全文
posted @ 2016-08-16 12:11 xingoo 阅读(27341) 评论(5) 推荐(6) 编辑
摘要:之前一直没有完全的总结出一篇关于Linux下安装Java的过程,今天正好就整理下。 下载jdk 如果在官网下载比较慢,那么可以到我的云盘分享上,下载jdk 1.8.0的版本: "下载地址参考链接" 解压缩jdk安装包 引入PATH以及JAVA_HOME环境变量 编辑完后,你就可以看到JAVA_HOM 阅读全文
posted @ 2016-08-16 10:28 xingoo 阅读(8928) 评论(0) 推荐(1) 编辑
摘要:安装VirtualBox为了共享文件夹,折腾了一晚上!网上的很多资料都不是很全面,这里就全面的总结一下,如果有其他的疑问,可以留言多多交流。 "VirtualBox下载地址,版本为5.1.2" 设置共享文件路径 点击虚拟机 设置 选择 共享文件夹 (图1 设置共享文件夹) 设置共享文件夹路径 1 选 阅读全文
posted @ 2016-08-15 22:57 xingoo 阅读(125027) 评论(7) 推荐(8) 编辑
摘要:Hive出现的背景 Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想。但是想要写出MapReduce算法还是比较繁琐的,对于开发者来说,需要了解底层的hadoop api。如果不是开发者想要使用mapreduce就会很困难.... 另一方面,大部分的开 阅读全文
posted @ 2016-08-13 13:13 xingoo 阅读(5651) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示