随笔分类 -  Hadoop

摘要:在传统的数据中,有ACID四大原则,在分布式中也有对应的CAP理论和BASE理论,这些都是分布式理论的基础。 更多内容参考: "大数据学习之路" ACID ACID分别是Atomicity 原子性、Consistency 一致性、Isolation 隔离性、Durability 持久性,有了这几个特 阅读全文
posted @ 2018-04-08 21:41 xingoo 阅读(2053) 评论(1) 推荐(0) 编辑
摘要:status 查看系统状态 version 查看版本号 table_help 查看提示信息 表的管理 create 创建表 list 查看表 describe 表的描述 disable 表的禁用 drop 表的删除 exsits 判断是否存在 数据操作 put 增加和修改数据 向指定的列族中插入数据 阅读全文
posted @ 2017-06-09 23:19 xingoo 阅读(2694) 评论(0) 推荐(2) 编辑
摘要:在16年8月份至今,一直在努力学习大数据大数据相关的技术,很想了解众多老司机的学习历程。因为大数据涉及的技术很广需要了解的东西也很多,会让很多新手望而却步。所以,我就在自己学习的过程中总结一下学到的内容以及踩到的一些坑,希望得到老司机的指点和新手的借鉴。 目前正在结合机器学习理论学习MLlib源码 阅读全文
posted @ 2016-12-18 20:22 xingoo 阅读(79459) 评论(32) 推荐(36) 编辑
摘要:试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个? 如果你存在上述的困惑,可以多了解一些 阅读全文
posted @ 2016-12-13 23:31 xingoo 阅读(18178) 评论(0) 推荐(4) 编辑
摘要:在hadoop生态越来越完善的背景下,集群多用户租用的场景变得越来越普遍,多用户任务下的资源调度就显得十分关键了。比如,一个公司拥有一个几十个节点的hadoop集群,a项目组要进行一个计算任务,b项目组要计算一个任务,集群到底先执行哪个任务?如果你需要提交1000个任务呢?这些任务又是如何执行的? 阅读全文
posted @ 2016-12-06 22:39 xingoo 阅读(3731) 评论(0) 推荐(0) 编辑
摘要:在大数据的当下,各种spark和hadoop的框架层出不穷。各种高端的计算框架,分布式任务如乱花般迷眼。你是否有这种困惑!——有了许多的分布式任务,但是每天需要固定时间跑任务,自己写个调度,既不稳定,又没有可靠的通知。 想要了解 "Oozie的基础知识,可以参考这里" 那么你应该是在找——Oozie 阅读全文
posted @ 2016-11-17 21:53 xingoo 阅读(4306) 评论(0) 推荐(0) 编辑
摘要:介绍 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。sqoop通过Hadoop的MapReduce导入导出,因此提供了很高的并行性能以及良好的容错 阅读全文
posted @ 2016-09-29 18:33 xingoo 阅读(15734) 评论(0) 推荐(4) 编辑
摘要:设想一下,当你的系统引入了spark或者hadoop以后,基于Spark和Hadoop已经做了一些任务,比如一连串的Map Reduce任务,但是他们之间彼此右前后依赖的顺序,因此你必须要等一个任务执行成功后,再手动执行第二个任务。是不是很烦! 这个时候Oozie(驯象人,典故来自评论一楼)就派上用 阅读全文
posted @ 2016-09-22 22:41 xingoo 阅读(19108) 评论(3) 推荐(1) 编辑
摘要:Sqoop是一款用于把关系型数据库中的数据导入到hdfs中或者hive中的工具,当然也支持把数据从hdfs或者hive导入到关系型数据库中。 Sqoop也是基于Mapreduce来做的数据导入。 关于sqoop的原理 sqoop的原理比较简单,就是根据用户指定的sql或者字段参数,从数据库中读取数据 阅读全文
posted @ 2016-09-12 19:17 xingoo 阅读(2198) 评论(0) 推荐(0) 编辑
摘要:了解Hive的都知道Hive有三种使用方式——CLI命令行,HWI(hie web interface)浏览器 以及 Thrift客户端连接方式。 为了体验下HWI模式,特意查询了多方的资料,都没有一个完整的部署方案,经过一下午的踩坑,这里特意总结一下,希望为后人节省点时间。 先放个图兴奋一下! 参 阅读全文
posted @ 2016-08-31 18:48 xingoo 阅读(10971) 评论(1) 推荐(0) 编辑
摘要:一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识。那么,一般对陌生事物的认知都会经历下面几个阶段: 为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通? 我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料。第三个问题,就得慢慢靠实 阅读全文
posted @ 2016-08-30 22:01 xingoo 阅读(9274) 评论(2) 推荐(4) 编辑
摘要:SQL里面通常都会用Join来连接两个表,做复杂的关联查询。比如用户表和订单表,能通过join得到某个用户购买的产品;或者某个产品被购买的人群.... Hive也支持这样的操作,而且由于Hive底层运行在hadoop上,因此有很多地方可以进行优化。比如小表到大表的连接操作、小表进行缓存、大表进行避免 阅读全文
posted @ 2016-08-24 22:13 xingoo 阅读(25525) 评论(0) 推荐(2) 编辑
摘要:Hive作为大数据环境下的数据仓库工具,支持基于hadoop以sql的方式执行mapreduce的任务,非常适合对大量的数据进行全量的查询分析。 本文主要讲述下hive载cli中如何导入导出数据: 导入数据 第一种方式,直接从本地文件系统导入数据 我的本机有一个test1.txt文件,这个文件中有三 阅读全文
posted @ 2016-08-23 22:26 xingoo 阅读(14504) 评论(0) 推荐(4) 编辑
摘要:知识图谱 阅读全文
posted @ 2016-08-23 10:44 xingoo 阅读(3472) 评论(0) 推荐(0) 编辑
摘要:Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的。只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api。 在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客 阅读全文
posted @ 2016-08-16 12:11 xingoo 阅读(27341) 评论(5) 推荐(6) 编辑
摘要:Hive出现的背景 Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想。但是想要写出MapReduce算法还是比较繁琐的,对于开发者来说,需要了解底层的hadoop api。如果不是开发者想要使用mapreduce就会很困难.... 另一方面,大部分的开 阅读全文
posted @ 2016-08-13 13:13 xingoo 阅读(5651) 评论(0) 推荐(0) 编辑
摘要:This document is a starting point for users working with Hadoop Distributed File System (HDFS) either as a part of a Hadoop cluster or as a stand alon 阅读全文
posted @ 2016-07-28 22:48 xingoo 阅读(4533) 评论(0) 推荐(0) 编辑
摘要:搭建HDFS 增加主机名 我这里仅仅增加了master主机名 如果配置远程集群,则需要配置SSH 我这里就是单节点测试玩玩,所以这步骤先省略了。 解压缩hadoop到/usr目录下 创建几个需要的目录 修改配置文件,在$HADOOP_HOME/etc/hadoop下 修改hadoop env.sh 阅读全文
posted @ 2016-07-28 09:49 xingoo 阅读(8251) 评论(1) 推荐(1) 编辑

点击右上角即可分享
微信分享提示