2016年4月16日
摘要:
我64位机器,当时hadoop启动的时候出现这个问题是因为hadoop本身自带的本地库是32位的,我现在hadoop2.2.0已经替换了本地库为64位的了,并且编译spark的时候采用了相对应的版本:SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/s
阅读全文
posted @ 2016-04-16 21:55
问候你爸
阅读(271)
推荐(0)
摘要:
http://www.linuxidc.com/Linux/2015-08/120947.htm
阅读全文
posted @ 2016-04-16 18:34
问候你爸
阅读(109)
推荐(0)
2016年4月14日
摘要:
Flume 数据收集_注意事项1、 hadoop 集群与 flume 集群单独部署,hdfs 文件系统数据存放目录为:hdfs://cluster1 /flume/%Y%m%d,flume 数据收集的时候能否识别多 NameNode 对外提供的访问路径 cluster1?1) 无法找到 hdfs,比
阅读全文
posted @ 2016-04-14 10:50
问候你爸
阅读(462)
推荐(1)
2016年4月6日
摘要:
./hadoop-daemon.sh start namenode
阅读全文
posted @ 2016-04-06 07:53
问候你爸
阅读(1071)
推荐(0)
2016年4月5日
摘要:
1.hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据 2.hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL用户查询数据 3.允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂分析和工作
阅读全文
posted @ 2016-04-05 15:16
问候你爸
阅读(194)
推荐(0)
2016年3月30日
摘要:
1.我首先创建了一个hive用户然后执行create database hive报错如下 ERROR 1044 (42000): Access denied for user 'xuhive'@'%' to database 'hive' 2.上网查到权限不够退出当前用户到root用户下赋予hive
阅读全文
posted @ 2016-03-30 16:34
问候你爸
阅读(1325)
推荐(0)
2016年3月22日
摘要:
为什么序列化? 一般来说,活的对象只生存在内存里,关机断电就没了,而且活的对象只能在本地的进程使用,不能被发送到网上的另外一台计算机。然而序列化可以存储活的对象,可以将活的对象发送到远程计算机。 什么是序列化? 序列化就是指将结构化对象转化为字节流(字符数组)。反序列化就是将字节流转向结构化对象的
阅读全文
posted @ 2016-03-22 09:05
问候你爸
阅读(849)
推荐(0)
2016年3月21日
摘要:
HDFS设计的主要目的是对海量数据进行处理,也就是说在其上能够储存很大量文件(可以储存TB级的文件)。HDFS将这些文件分割之后,储存在不同的DataNode上,HDFS提供了两种数据访问接口:Shell接口和javaAPI接口,对HDFS里面的文件进行操作。 Shell接口 HDFS处理文件的命令
阅读全文
posted @ 2016-03-21 23:01
问候你爸
阅读(1013)
推荐(0)
2016年3月20日
摘要:
MapReduce计算模型由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。map()和reduce()这两个函数的形参是key、value对,表示函数的输入信息。 1. map任务处理 1 读取输入文件内容,解析成key、val
阅读全文
posted @ 2016-03-20 21:06
问候你爸
阅读(334)
推荐(0)
摘要:
MapReduce是一种编程模型,用于大规模数据集的并行计算,其主要思想就是Map(映射)和Reduce(化简)。MapReduce的创意和灵感来源于函数式编程,在函数式编程中,map对列表的每个元素执行操作或函数。例如:列表[1,2,3,4]上执行 multiple-by-two 函数会产生另一个
阅读全文
posted @ 2016-03-20 20:42
问候你爸
阅读(151)
推荐(0)