摘要: HDFS:1、分布式文件系统:管理网络中跨多台计算机存储的文件系统2、hadoop定义了一个抽象文件系统概念,具体就是一个java抽象类:org.apache.hadoop.fs.FileSystm,只要某个文件系统实现了该接口,就可以作为hadoop支持的文件系统3、数据块:hdfs中默认存储是6... 阅读全文
posted @ 2015-10-08 13:29 风儿飞 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 1、hive数据类型:基本数据类型:tinyint、smallint、int、bigint、float、double、boolean、string复合数据类型:array:一段有序字段,字段的类型必须相同map:一组无序的健/值对,健的类型必须是原子类型struct:一组命名的字段,类型可以不同复杂... 阅读全文
posted @ 2015-10-03 17:29 风儿飞 阅读(631) 评论(0) 推荐(0) 编辑
摘要: 1、hive:建立在Hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供了简单的类SQL查询语言,称为QL,允许用户开发自定义的mapper、reducer来处理复杂的分析工作,十分适合数据仓库的统计分析。2、Hive架构包括如下组件:CLI、JDBC、Thrift Ser... 阅读全文
posted @ 2015-10-02 19:09 风儿飞 阅读(2343) 评论(0) 推荐(0) 编辑
摘要: 1、进入scala:直接输入scala即可2、退出:输入:quit或者:q都可以3、输入变量一部分,按Tab键可补全可调用的方法名称4、从技术上讲Scala并不是一个解释器,实际上是将读取的输入内容迅速的编译成字节码,然后交由Java虚拟机执行,也被称为REPL(读取-计算-打印-循环)5、声明常量... 阅读全文
posted @ 2015-09-22 18:07 风儿飞 阅读(17803) 评论(1) 推荐(0) 编辑
摘要: Spark是用Scala语言写的,所以要先把Scala学好,Scala的安装很简单:1、下载Scala:http://www.scala-lang.org/download/2、下载下来的是msi安装包,直接安装即可,安装过程中会自动帮你更新系统环境变量PATH,所以安装后无需使设置任何环境变量便可... 阅读全文
posted @ 2015-09-21 18:31 风儿飞 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 安装完hadoop后便可安装oozie运行自己的工作流:1、下载oozie压缩包,oozie-4.0.0-cdh5.0.0.tar.gz,下载地址http://archive.cloudera.com/cdh5/cdh/5/2、下载ext-2.2.zip:http://extjs.com/deplo... 阅读全文
posted @ 2015-09-20 14:06 风儿飞 阅读(660) 评论(0) 推荐(0) 编辑
摘要: 之前在centos7安装hadoop2.2.0集群-环境准备及centos7安装hadoop2.2.0集群-软件安装中讲过从最开始的环境准备及软件安装,从设置hostname到jdk的安装都没有问题,只是在这里重新回顾一下完整版的hadoop安装,验证过的,比较靠谱一点。因为之前jdk安装之前的都没... 阅读全文
posted @ 2015-09-20 13:25 风儿飞 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 1、定义topology:public class TopologyMain { public static void main(String[] args) throws AlreadyAliveException, InvalidTopologyException, InterruptedExc... 阅读全文
posted @ 2015-09-18 19:30 风儿飞 阅读(244) 评论(0) 推荐(0) 编辑
摘要: Storm是一个实时处理框架,安装也比Hadoop还有OOZIE简单,如下:之前在Storm初探中介绍Storm节点时间的控制管理是通过Zookeeper来管理的,所以需要先安装Zookeeper集群1、下载Zookeeper,zookeeper-3.4.6.tar.gz并解压,并将conf/zoo... 阅读全文
posted @ 2015-09-18 17:08 风儿飞 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 1、Storm;开源分布式实时处理框架,具有高容错性,保证每个信息都会得到处理,可以使用任何编程语言开发应用。2、Storm集群中真正运行拓扑图的有3个实体:工作进程、线程、任务。每个进程可创建多个线程,每个线程可执行多个任务,任务是真正进行数据处理的实体,spout、bolt就是作为一个或多个任务... 阅读全文
posted @ 2015-09-18 16:03 风儿飞 阅读(245) 评论(0) 推荐(0) 编辑