2016年4月16日
摘要: 我64位机器,当时hadoop启动的时候出现这个问题是因为hadoop本身自带的本地库是32位的,我现在hadoop2.2.0已经替换了本地库为64位的了,并且编译spark的时候采用了相对应的版本:SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/s 阅读全文
posted @ 2016-04-16 21:55 问候你爸 阅读(238) 评论(0) 推荐(0) 编辑
摘要: http://www.linuxidc.com/Linux/2015-08/120947.htm 阅读全文
posted @ 2016-04-16 18:34 问候你爸 阅读(103) 评论(0) 推荐(0) 编辑
  2016年4月14日
摘要: Flume 数据收集_注意事项1、 hadoop 集群与 flume 集群单独部署,hdfs 文件系统数据存放目录为:hdfs://cluster1 /flume/%Y%m%d,flume 数据收集的时候能否识别多 NameNode 对外提供的访问路径 cluster1?1) 无法找到 hdfs,比 阅读全文
posted @ 2016-04-14 10:50 问候你爸 阅读(456) 评论(0) 推荐(1) 编辑
  2016年4月6日
摘要: ./hadoop-daemon.sh start namenode 阅读全文
posted @ 2016-04-06 07:53 问候你爸 阅读(1057) 评论(0) 推荐(0) 编辑
  2016年4月5日
摘要: 1.hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据 2.hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL用户查询数据 3.允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂分析和工作 阅读全文
posted @ 2016-04-05 15:16 问候你爸 阅读(166) 评论(0) 推荐(0) 编辑
  2016年3月30日
摘要: 1.我首先创建了一个hive用户然后执行create database hive报错如下 ERROR 1044 (42000): Access denied for user 'xuhive'@'%' to database 'hive' 2.上网查到权限不够退出当前用户到root用户下赋予hive 阅读全文
posted @ 2016-03-30 16:34 问候你爸 阅读(1301) 评论(0) 推荐(0) 编辑
  2016年3月22日
摘要: 为什么序列化? 一般来说,活的对象只生存在内存里,关机断电就没了,而且活的对象只能在本地的进程使用,不能被发送到网上的另外一台计算机。然而序列化可以存储活的对象,可以将活的对象发送到远程计算机。 什么是序列化? 序列化就是指将结构化对象转化为字节流(字符数组)。反序列化就是将字节流转向结构化对象的 阅读全文
posted @ 2016-03-22 09:05 问候你爸 阅读(837) 评论(0) 推荐(0) 编辑
  2016年3月21日
摘要: HDFS设计的主要目的是对海量数据进行处理,也就是说在其上能够储存很大量文件(可以储存TB级的文件)。HDFS将这些文件分割之后,储存在不同的DataNode上,HDFS提供了两种数据访问接口:Shell接口和javaAPI接口,对HDFS里面的文件进行操作。 Shell接口 HDFS处理文件的命令 阅读全文
posted @ 2016-03-21 23:01 问候你爸 阅读(993) 评论(0) 推荐(0) 编辑
  2016年3月20日
摘要: MapReduce计算模型由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。map()和reduce()这两个函数的形参是key、value对,表示函数的输入信息。 1. map任务处理 1 读取输入文件内容,解析成key、val 阅读全文
posted @ 2016-03-20 21:06 问候你爸 阅读(315) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一种编程模型,用于大规模数据集的并行计算,其主要思想就是Map(映射)和Reduce(化简)。MapReduce的创意和灵感来源于函数式编程,在函数式编程中,map对列表的每个元素执行操作或函数。例如:列表[1,2,3,4]上执行 multiple-by-two 函数会产生另一个 阅读全文
posted @ 2016-03-20 20:42 问候你爸 阅读(145) 评论(0) 推荐(0) 编辑