Hadoop - 随笔分类 - xingoo

分布式理论——从ACID到CAP再到BASE

摘要：在传统的数据中，有ACID四大原则，在分布式中也有对应的CAP理论和BASE理论，这些都是分布式理论的基础。更多内容参考： "大数据学习之路" ACID ACID分别是Atomicity 原子性、Consistency 一致性、Isolation 隔离性、Durability 持久性，有了这几个特阅读全文

posted @ 2018-04-08 21:41 xingoo 阅读(2113) 评论(1) 推荐(0)

Hbase常用Shell命令

摘要：status 查看系统状态 version 查看版本号 table_help 查看提示信息表的管理 create 创建表 list 查看表 describe 表的描述 disable 表的禁用 drop 表的删除 exsits 判断是否存在数据操作 put 增加和修改数据向指定的列族中插入数据阅读全文

posted @ 2017-06-09 23:19 xingoo 阅读(2750) 评论(0) 推荐(2)

大数据学习之路（持续更新中...）

摘要：在16年8月份至今，一直在努力学习大数据大数据相关的技术，很想了解众多老司机的学习历程。因为大数据涉及的技术很广需要了解的东西也很多，会让很多新手望而却步。所以，我就在自己学习的过程中总结一下学到的内容以及踩到的一些坑，希望得到老司机的指点和新手的借鉴。目前正在结合机器学习理论学习MLlib源码阅读全文

posted @ 2016-12-18 20:22 xingoo 阅读(80336) 评论(32) 推荐(36)

大数据之Yarn——Capacity调度器概念以及配置

摘要：试想一下，你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表，B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景，这个时候到底如何分配资源满足这两个任务呢？是先执行A的任务，再执行B的任务，还是同时跑两个？如果你存在上述的困惑，可以多了解一些阅读全文

posted @ 2016-12-13 23:31 xingoo 阅读(18358) 评论(0) 推荐(4)

[大数据之Yarn]——资源调度浅学

摘要：在hadoop生态越来越完善的背景下，集群多用户租用的场景变得越来越普遍，多用户任务下的资源调度就显得十分关键了。比如，一个公司拥有一个几十个节点的hadoop集群，a项目组要进行一个计算任务，b项目组要计算一个任务，集群到底先执行哪个任务？如果你需要提交1000个任务呢？这些任务又是如何执行的？阅读全文

posted @ 2016-12-06 22:39 xingoo 阅读(3802) 评论(0) 推荐(0)

Oozie分布式任务的工作流——邮件篇

摘要：在大数据的当下，各种spark和hadoop的框架层出不穷。各种高端的计算框架，分布式任务如乱花般迷眼。你是否有这种困惑！——有了许多的分布式任务，但是每天需要固定时间跑任务，自己写个调度，既不稳定，又没有可靠的通知。想要了解 "Oozie的基础知识，可以参考这里" 那么你应该是在找——Oozie 阅读全文

posted @ 2016-11-17 21:53 xingoo 阅读(4353) 评论(0) 推荐(0)

[大数据之Sqoop] —— 什么是Sqoop?

摘要：介绍 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库（比如mysql,oracle）导入到hdfs中；也可以把数据从hdfs中导出到关系型数据库中。sqoop通过Hadoop的MapReduce导入导出，因此提供了很高的并行性能以及良好的容错阅读全文

posted @ 2016-09-29 18:33 xingoo 阅读(16148) 评论(0) 推荐(4)

Oozie 快速入门

摘要：设想一下，当你的系统引入了spark或者hadoop以后，基于Spark和Hadoop已经做了一些任务，比如一连串的Map Reduce任务，但是他们之间彼此右前后依赖的顺序，因此你必须要等一个任务执行成功后，再手动执行第二个任务。是不是很烦！这个时候Oozie（驯象人，典故来自评论一楼）就派上用阅读全文

posted @ 2016-09-22 22:41 xingoo 阅读(19188) 评论(3) 推荐(1)

[大数据之Sqoop] —— Sqoop初探

摘要：Sqoop是一款用于把关系型数据库中的数据导入到hdfs中或者hive中的工具，当然也支持把数据从hdfs或者hive导入到关系型数据库中。 Sqoop也是基于Mapreduce来做的数据导入。关于sqoop的原理 sqoop的原理比较简单，就是根据用户指定的sql或者字段参数，从数据库中读取数据阅读全文

posted @ 2016-09-12 19:17 xingoo 阅读(2232) 评论(0) 推荐(0)

手把手教你搭建Hive Web环境

摘要：了解Hive的都知道Hive有三种使用方式——CLI命令行，HWI（hie web interface）浏览器以及 Thrift客户端连接方式。为了体验下HWI模式，特意查询了多方的资料，都没有一个完整的部署方案，经过一下午的踩坑，这里特意总结一下，希望为后人节省点时间。先放个图兴奋一下！参阅读全文

posted @ 2016-08-31 18:48 xingoo 阅读(11095) 评论(1) 推荐(0)

循序渐进，了解Hive是什么！

摘要：一直想抽个时间整理下最近的所学，断断续续接触hive也有半个多月了，大体上了解了很多Hive相关的知识。那么，一般对陌生事物的认知都会经历下面几个阶段：为什么会出现？解决了什么问题？如何搭建？如何使用？如何精通？我会在本篇粗略的介绍下前两个问题，然后给一些相关的资料。第三个问题，就得慢慢靠实阅读全文

posted @ 2016-08-30 22:01 xingoo 阅读(9330) 评论(2) 推荐(4)

[Hadoop大数据]——Hive连接JOIN用例详解

摘要：SQL里面通常都会用Join来连接两个表，做复杂的关联查询。比如用户表和订单表，能通过join得到某个用户购买的产品；或者某个产品被购买的人群.... Hive也支持这样的操作，而且由于Hive底层运行在hadoop上，因此有很多地方可以进行优化。比如小表到大表的连接操作、小表进行缓存、大表进行避免阅读全文

posted @ 2016-08-24 22:13 xingoo 阅读(25676) 评论(0) 推荐(2)

[Hadoop大数据]——Hive数据的导入导出

摘要：Hive作为大数据环境下的数据仓库工具，支持基于hadoop以sql的方式执行mapreduce的任务，非常适合对大量的数据进行全量的查询分析。本文主要讲述下hive载cli中如何导入导出数据：导入数据第一种方式，直接从本地文件系统导入数据我的本机有一个test1.txt文件，这个文件中有三阅读全文

posted @ 2016-08-23 22:26 xingoo 阅读(14598) 评论(0) 推荐(4)

《Hive编程指南》—— 读后总结

摘要：知识图谱阅读全文

posted @ 2016-08-23 10:44 xingoo 阅读(3493) 评论(0) 推荐(0)

[Hadoop大数据]——Hive部署入门教程

摘要：Hive是为了解决hadoop中mapreduce编写困难，提供给熟悉sql的人使用的。只要你对SQL有一定的了解，就能通过Hive写出mapreduce的程序，而不需要去学习hadoop中的api。在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客阅读全文

posted @ 2016-08-16 12:11 xingoo 阅读(27474) 评论(5) 推荐(6)

[Hadoop大数据]——Hive初识

摘要：Hive出现的背景 Hadoop提供了大数据的通用解决方案，比如存储提供了Hdfs，计算提供了MapReduce思想。但是想要写出MapReduce算法还是比较繁琐的，对于开发者来说，需要了解底层的hadoop api。如果不是开发者想要使用mapreduce就会很困难.... 另一方面，大部分的开阅读全文

posted @ 2016-08-13 13:13 xingoo 阅读(5693) 评论(0) 推荐(0)

Hadoop HDFS 用户指南

摘要：This document is a starting point for users working with Hadoop Distributed File System (HDFS) either as a part of a Hadoop cluster or as a stand alon 阅读全文

posted @ 2016-07-28 22:48 xingoo 阅读(4617) 评论(0) 推荐(0)

单节点部署Hadoop教程

摘要：搭建HDFS 增加主机名我这里仅仅增加了master主机名如果配置远程集群，则需要配置SSH 我这里就是单节点测试玩玩，所以这步骤先省略了。解压缩hadoop到/usr目录下创建几个需要的目录修改配置文件，在$HADOOP_HOME/etc/hadoop下修改hadoop env.sh 阅读全文

posted @ 2016-07-28 09:49 xingoo 阅读(8298) 评论(1) 推荐(1)

xingoo

随笔分类 - Hadoop

公告