随笔分类 - 数据仓库

摘要：由于Spark是在Hadoop家族之上发展出来的，因此底层为了兼容hadoop,支持了多种的数据格式。如S3、HDFS、Cassandra、HBase，有了这些数据的组织形式，数据的来源和存储都可以多样化~ 阅读全文

posted @ 2016-09-05 22:41 xingoo 阅读(1829) 评论(0) 推荐(0) 编辑

摘要：了解Hive的都知道Hive有三种使用方式——CLI命令行，HWI（hie web interface）浏览器以及 Thrift客户端连接方式。为了体验下HWI模式，特意查询了多方的资料，都没有一个完整的部署方案，经过一下午的踩坑，这里特意总结一下，希望为后人节省点时间。先放个图兴奋一下！参阅读全文

posted @ 2016-08-31 18:48 xingoo 阅读(10971) 评论(1) 推荐(0) 编辑

循序渐进，了解Hive是什么！

摘要：一直想抽个时间整理下最近的所学，断断续续接触hive也有半个多月了，大体上了解了很多Hive相关的知识。那么，一般对陌生事物的认知都会经历下面几个阶段：为什么会出现？解决了什么问题？如何搭建？如何使用？如何精通？我会在本篇粗略的介绍下前两个问题，然后给一些相关的资料。第三个问题，就得慢慢靠实阅读全文

posted @ 2016-08-30 22:01 xingoo 阅读(9274) 评论(2) 推荐(4) 编辑

[Hadoop大数据]——Hive连接JOIN用例详解

摘要：SQL里面通常都会用Join来连接两个表，做复杂的关联查询。比如用户表和订单表，能通过join得到某个用户购买的产品；或者某个产品被购买的人群.... Hive也支持这样的操作，而且由于Hive底层运行在hadoop上，因此有很多地方可以进行优化。比如小表到大表的连接操作、小表进行缓存、大表进行避免阅读全文

posted @ 2016-08-24 22:13 xingoo 阅读(25525) 评论(0) 推荐(2) 编辑

[Hadoop大数据]——Hive数据的导入导出

摘要：Hive作为大数据环境下的数据仓库工具，支持基于hadoop以sql的方式执行mapreduce的任务，非常适合对大量的数据进行全量的查询分析。本文主要讲述下hive载cli中如何导入导出数据：导入数据第一种方式，直接从本地文件系统导入数据我的本机有一个test1.txt文件，这个文件中有三阅读全文

posted @ 2016-08-23 22:26 xingoo 阅读(14504) 评论(0) 推荐(4) 编辑

[Hadoop大数据]——Hive部署入门教程

摘要：Hive是为了解决hadoop中mapreduce编写困难，提供给熟悉sql的人使用的。只要你对SQL有一定的了解，就能通过Hive写出mapreduce的程序，而不需要去学习hadoop中的api。在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客阅读全文

posted @ 2016-08-16 12:11 xingoo 阅读(27341) 评论(5) 推荐(6) 编辑

CentOS6.5下安装JDK

摘要：之前一直没有完全的总结出一篇关于Linux下安装Java的过程，今天正好就整理下。下载jdk 如果在官网下载比较慢，那么可以到我的云盘分享上，下载jdk 1.8.0的版本： "下载地址参考链接" 解压缩jdk安装包引入PATH以及JAVA_HOME环境变量编辑完后，你就可以看到JAVA_HOM 阅读全文

posted @ 2016-08-16 10:28 xingoo 阅读(8928) 评论(0) 推荐(1) 编辑

手把手教你在VirtualBox中与主机共享文件夹

摘要：安装VirtualBox为了共享文件夹，折腾了一晚上！网上的很多资料都不是很全面，这里就全面的总结一下，如果有其他的疑问，可以留言多多交流。 "VirtualBox下载地址,版本为5.1.2" 设置共享文件路径点击虚拟机设置选择共享文件夹（图1 设置共享文件夹）设置共享文件夹路径 1 选阅读全文

posted @ 2016-08-15 22:57 xingoo 阅读(125027) 评论(7) 推荐(8) 编辑

[Hadoop大数据]——Hive初识

摘要：Hive出现的背景 Hadoop提供了大数据的通用解决方案，比如存储提供了Hdfs，计算提供了MapReduce思想。但是想要写出MapReduce算法还是比较繁琐的，对于开发者来说，需要了解底层的hadoop api。如果不是开发者想要使用mapreduce就会很困难.... 另一方面，大部分的开阅读全文

posted @ 2016-08-13 13:13 xingoo 阅读(5651) 评论(0) 推荐(0) 编辑

公告

扫码关注公众号，不定期分享大数据和机器学习工作经验与学习心得

昵称： xingoo
园龄： 12年5个月
粉丝： 3983
关注： 79

+加关注

2025年3月

日

一

二

三

四

五

六

xingoo

随笔分类 - 数据仓库

公告

最新随笔

积分与排名

随笔分类 (900)

随笔档案 (1028)

常用工具

官方文档

好友链接