随笔分类 - Hadoop
摘要:安装Flink 环境 环境:centos 7.7jdk:1.8.0Flink 版本:1.14.5安装目录:/root/hadoop/flink-1.14.5 首先解压Flink tar 包 tar -zxvf flink-1.14.5-bin-scala_2.11.tgz cd flink-1.14
阅读全文
摘要:Hadoop 3.3 安装部署 Hadoop 版本 3.3Linux 版本 Centos 7.7JDK 版本 1.8.0 HADOOP_HOME=/root/hadoop/hadoop-3.3.3 前期准备工作 解压安装包 tar -zxvf hadoop-3.3.3.tar.gz cd hadoo
阅读全文
摘要:centos 7 部署 hbase 1.4.11 版本 在部署 hbase 前,首先安装好 jdk 1.7 和 zookeeper 3.4.14 软件。 部署 zookeeper 软件,可以参考 zk 部署。 用户在解压 hbase 的软件包后,编辑 conf/hbase-env.sh 文件,增加以
阅读全文
摘要:大数据生态圈很大,很多开发者都仅仅接触到某个单一产品。 Spark 是近年来比较流行的大数据计算框架,系统、平台要想用好Spark 这个产品,需要用到很多的产品。 本视频系列主要是为准备入坑大数据的童鞋提供一些入门级别的帮助,希望能够降低掉坑里的可能。 第一讲:Spark_整体介绍 链接:https
阅读全文
摘要:zookeeper 版本为zookeeper 3.4.8 操作系统为ubuntu 12.04 64位 zookeeper 单机搭建 解压zookeeper 包 进入 zookeeper 目录 拷贝一份配置文件 创建zookeeper 的数据目录 在zoo.cfg 配置文件上配置如下内容 注意: se
阅读全文
摘要:搭建一个完整的cdh 的版本,由于涉及的产品和步骤太多,在客户那里部署环境时,很容易出现意外,所以如果只是需要部署一个测试环境来进行验证,我们没有必要完完整整的部署整个cdh。 下面是通过命令行的形式搭建一个cdh 的hive 版本 首先在网上下载cdh 的文件,地址: http://archive
阅读全文
摘要:环境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式 部分操作参考:http://www.cnblogs.com/chenfool/p/3858930.html,我之前写的spark 1.0.1部
阅读全文
摘要:环境:ubuntu 14.04 server 64版本 hadoop 2.5.1 jdk 1.6 部署的步骤主要参考了http://blog.csdn.net/greensurfer/article/details/39450369这篇文章。 1 安装java,配置好环境变量 JAVA_HOME C
阅读全文
摘要:在Mahout 学习(三)中,我贴了example的代码,里面生成向量文件的代码: InputDriver实际上就是启动一个MapReduce程序,文件名叫InputMapper.java,只有Map处理,输出就是向量文件,代码 红色标注的代码,会有使得生成向量时,有一个强制要求,例如有数据 这样的
阅读全文
摘要:开发+运行第一个Mahout的程序 代码: 上面的代码就是上一篇的example 例子,使用kmeans 实现聚集。 build.xml代码 编译命令: 编译后,它会在${root.dir}下生成一个 mahout_test.jar 的文件。 编译程序依赖的jar包:mahout-core-0.9-
阅读全文
摘要:继续上一篇博客。 这篇博客介绍如何跑一下mahout自带的Hello world程序 我将mahout 安装在/opt/hadoop/mahout-distribution-0.9 搜索内容一个命令"curl",由于我的ubuntu 没有安装curl命令,所以需要修改一下 原: curl http:
阅读全文
摘要:Mahout 官方下载地址:http://apache.fayea.com/apache-mirror/mahout/ 环境ubuntu 12.04, hadoop1.2.1 ,mahout 0.9 , memory 2G 1 首先解压tar包 2 添加环境变量 你也可以将上面的新增环境变量加入~/
阅读全文
摘要:最近升级cdh版本,从4.5 升级到 5.0.0 beta-2 但是升级后,发现/etc/alternatives 路径下的软链接还是只想旧的4.5 版本,而且hadoop环境也是沿用4.5 的版本conf,导致hive不能正常使用,报错为hdfs 的版本不对。 后面使用strace工具查看,发现它
阅读全文
摘要:在wordcount 程序的main函数中,没有读取运行环境中的各种参数的值,全靠hadoop系统的默认参数跑起来,这样做是有风险的,最突出的就是OOM错误。 自己在刚刚学习hadoop编程时,就是模仿wordcount程序编写。在数据量很小,作为demo程序跑,不会有什么问题,但当数据量激增,变成
阅读全文
摘要:原本在3台机器中部署了Cloudera CDH4.8的集群环境,运行状况良好,后来由于机房搬迁,导致那3台机器的ip地址被改变(hostname 没有变化)。 再次启动Cloudera-scm-server,登陆进去看时,发现manager根本不认识那3台机器了。 无奈在“主机”的选项中需找修改的方
阅读全文
摘要:参考文章:http://community.cloudera.com/t5/Cloudera-Manager-Installation/Error-CDH5-oozie/td-p/8686 按照文章说的,将/var/lib/oozie/下面的文件删除即可
阅读全文
摘要:Cloudera 的官方介绍: http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.8.1/Cloudera-Manager-Installation-Guide/cmig_uninstall_CM.html
阅读全文
摘要:1安装SequoaiDB集群 1.1配置信任关系 以root用户执行下面的操作 1 执行命令 ssh-keygen 然后一直回车确定即可 2 每台机器都打开id_rsa.pub文件 vi ~/.ssh/id_rsa.pub 3每台机器上都打开authorized_keys 文件 vi ~/.ssh/
阅读全文
摘要:系统是ubuntu 12.04 , hadoop版本是1.2.1 , hive版本是0.12 , hbase版本我忘记了,不好意思首先是配置好hostnamevi /etc/hosts写入你要配置的ip 和它的hostname这里我写入了192.168.19.129 ubuntu 给要部署hadoo
阅读全文