摘要:
scala 版HelloWorrld object HelloWorld{ def main(args:Array[String]){ println("Hello World!!!"); } } 1.使用scalac HelloWorld.scala 编译下: 2.运行scala程序:scala 阅读全文
摘要:
get list of job's process IDs JOB_LIST=$(hadoop job -list 2> /dev/null | grep job_ | awk '{print $1}') kill all jobs for JOB in $JOB_LIST do hadoop jo 阅读全文
摘要:
Spark 概述 Apache Spark是一个快速和通用的集群计算系统。它提供Java,scala,Python、R语言的APIs,以及支持一般执行图形的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX 阅读全文
摘要:
传统的串行处理方式 有四组文本数据: “the weather is good”, “today is good”, “good weather is good”, “today has good weather” 对这些文本数据进行词频统计: import java.util.Hashtable; 阅读全文
摘要:
什么是 zookeeper? Zookeeper 是google的chubby一个开源实现,是hadoop的分布式协调服务 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 在Hbase中会用到。 Zk(zookeeper简称)可以用来保证数据在zk集群之间的数据 阅读全文
摘要:
体系结构 Hadoop1的核心组成包括HDFS和MapReduce。HDFS和MapReduce的共同点就是他们都是分布式的。 HDFS是包括主节点NameNode,只有一个,还有很多从节点DataNode,还有很多个。 NameNode含有我们用户存储的元数据的信息,把这些数据存储在硬盘上,但是在 阅读全文
摘要:
—更新2017年3月1日19:38:49—- 以下是Nat 网络设置,如果你想要同一局域网内的主机可以远程连接上你的集群环境,建议使用桥接模式,具体原因可看文末三种网络连接模式的区别。 由于之前设置集群的网络连接方式是NAT ,而IP是动态的。我采用的是自己的电脑搭建的环境,换了个连接网络的地方,i 阅读全文
摘要:
在网上找的hadoop for eclipse 插件都不能用,决定自己去编译一个。Hadoop 提供了一个 Eclipse 插件以方便用户在 Eclipse 集成开发环境中使用 Hadoop,如管理 HDFS 上的文件、提交作业、调试 MapReduce 程序等。Hadoop版本:h... 阅读全文
摘要:
昨晚听了下Hulu大数据基础架构组负责人–董西成的关于大数据学习方法的直播,挺有收获的,下面截取一些PPT的关键内容,希望对正在学习大数据的人有帮助。 现状是目前存在的问题,比如找百度、查书这种学习方法,百度和书籍上面有很多知识已经过时,那么正确的学习办法是什么?后面有讲。 技术框架每层对应的技术: 阅读全文
摘要:
最近做项目,数据层使用的是MyBatis框架,在使用过程中,犯了一些错误: resultMap和resultType书写错误导致问题 resultMap和resultType二者用法不一样: resultType: <select id="count" parameterType="AreaDto" 阅读全文