随笔分类 - 02.Linux
摘要:上一篇,我们介绍Impala的相关操作。
下面我们开始继续进一步的了解Impala的相关操作。
阅读全文
摘要:上一篇,我们介绍Impala的介绍及安装。
下面我们开始继续进一步的了解Impala的相关操作。
阅读全文
摘要:有时候,在装Linux的时候,看到默认的HostName就像改掉,那能不能随意的改掉了?在一次随意的改动中,体会到这个的痛楚。
下面就这种场景进行描述。
阅读全文
摘要:该文章主要作为Hadoop技巧系列文章的索引,方便大家阅览。
阅读全文
摘要:上一篇,我们对hive的数据导出,以及集群Hive数据的迁移进行描述。了解到了基本的hive导出操作。这里,我们将对hive的CLI及JDBC这些实用性很强的两个方便进行简要的介绍。
下面我们开始介绍hive的CLI和JDBC。
阅读全文
摘要:上一篇,我们介绍了Hive的数据多种方式导入,这样我们的Hive就有了数据来源了,但有时候我们可能需要纯粹的导出,或者集群Hive数据的迁移(不同集群,不同版本),我们就可以通过这两章的知识来实现。
下面我们开始介绍hive的数据导出,以及集群Hive数据的迁移进行描述。
阅读全文
摘要:上一篇,我们介绍了Hive的表操作做了简单的描述和实践。在实际使用中,可能会存在数据的导入导出,虽然可以使用sqoop等工具进行关系型数据导入导出操作,但有的时候只需要很简便的方式进行导入导出即可
下面我们开始介绍hive的数据导入,导出,以及集群的数据迁移进行描述。
阅读全文
摘要:上一篇,我们介绍了Hive和对其进行了安装,下面我们就初步的使用hive进行讲解。
下面我们开始介绍hive的创建表,修改表,删除表等。
阅读全文
摘要:本系列已经有一个多月没更新了,期间涉及到找相关对应的工作,所幸的事,得到了几个offer,后来综合考虑来到了目前这家工作。希望在接下来的时间里,能融入整个社区中去,做出自己略微的贡献。
上一篇,我们列举了hadoop常用的命令,本应该给大家实战下命令的使用的,后来还是想大家自己下去试验试验,接下来开始初略介绍hadoop生态圈中的hive。
下面我们开始介绍hive的介绍及安装。
阅读全文
摘要:上一篇,我们对Hadoop命令中的HDFS Commands进行了简略的列举,下面我们就MapReduce Commands和Yarn Commands进行简略的列举,官网基本都是英文的,所以只能拙略的翻译下,妄大家见谅。
下面,我们就开始对Hadoop命令下进行讲解。
阅读全文
摘要:上一篇,我们对Hadoop命令进行了简略的列举,但是Hadoop命令特多,还有一部分没有列举完,官网基本都是英文的,所以只能拙略的翻译下,妄大家见谅。
下面,我们就开始对Hadoop命令中进行讲解。
阅读全文
摘要:上一篇,我们从发展历程,架构,MapReduce等方面对比了Hadoop1.x与Hadoop2.x,特别是这这几年,2.x的发展已经可以适合很多的应用场景了。前面我们通过Eclipse插件来进行文件的上传,删除等,下面我们熟悉下Hadoop命令,从而更能直接,强力的对Hadoop进行操作。
下面,我们就开始对Hadoop命令进行粗略的解析。本文有些地方是自己翻译的,翻译的不好望见谅。本章节内容较多,还是分为上下两部分。
阅读全文
摘要:上一篇,我们使用Maven构建了我的MapReduce程序,并且成功的运行了Job。那么大家可能会觉得为什么要这么做,有没有些理论依据,毕竟对hadoop的功能,特点有了了解后,做事情会心里稍微有点底。所以我们开始补些理论知识。
下面,我们就开始比较下Hadoop1.x与Hadoop2.x,感受下产品迭代的快乐。
申明,这一篇幅的图都是网上找的,就不打水印了,做人得厚道。
阅读全文
摘要:上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant来管理工程的,后来到了2.x就开始使用maven来管理了。
那么我们就有理由用maven来构建我们的Hadoop工程。
阅读全文
摘要:上一篇,我们的Eclipse插件搞定,那开始我们的MapReduce之旅。
在这里,我们先调用官方的wordcount例子,然后再手动创建个例子,这样可以更好的理解Job。
阅读全文
摘要:上一篇,我们的第一个Cluster搞定了,按平常的搭建集群来说,应该是至少3个DataNode的,应为默认的一份HDFS文件分成3份,所以最少也得3个DataNode的服务器,但由于本机就一块硬盘,内存也不大,所以,勉强的用2份。
在这里我们开始使用MyCluster了,有个Eclipse的插件用上去后,对HDFS文件的处理就比较方便了,我们开始吧!
阅读全文
摘要:上一篇,我们把Ambari的环境基本搭建好了,那么我们趁热打铁,打造我们的第一个HDP集群,这样,离我们下一步就越来越近了,在安装中还是会碰到很多想不到的情况的。所以,注意分析,找到解决方法很重要。
对了,这里我们还是多搭建了一个机器H34,怕集群机器不够。大家按照原来的步骤在做一个吧。
阅读全文
摘要:这里我们选择Ambari作为HDP的生产管理工具,如果我们一个个去配置HDP,很浪费时间,也很没有效率,成功率。生产环境也得尽量的自动化,让工具帮我们做大部分重复的工作,解放双手,解放时间,解放效率。
下面我们就Ambari的在线安装展开叙述,如果大家对离线安装感兴趣,到时候再加篇幅进行叙述。
阅读全文
摘要:我们已经准备好了网络访问,防火墙,Hosts,SSH等设置,下面我们根据上篇中的检查列表处理下剩下的内容,包括yum,时间同步,本地仓库等。
我们开始吧。
阅读全文
摘要:在上一步骤,我们已经准备了4台虚拟机,分别是H30,H31,H32,H33。其中H30为我们的Ambari服务器,H31为NameNode服务器,H32,H33为我们的DataNode服务器。
接下来,我们就得准备下这些虚拟机的Linux环境了。
阅读全文