2017 年 5月 16 日随笔档案 - 诸葛小四

2017年5月16日

HDFS上传文件错误--hdfs:DFSClient:DataStreamer Exception

摘要：今天上传文件的时候发现传上去的文件为空，错误提示如上述所示，原来是IP地址改掉了对呀应etc／hosts下面的IP地址也要改变，永久改ip命令－ifconfig eth0 xxx·xxx·xxx·xxx up。改完IP即可同时ssh其他节点也可以成功阅读全文

posted @ 2017-05-16 21:56 诸葛小四阅读(2785) 评论(0) 推荐(0) 编辑

Hadoop中文编码乱码相关问题

摘要： mapreduce程序处理GBK编码数据并输出GBK编码数据, hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，但是对于中文的输出window系统默认的是GBK，有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时，输出的结果为乱码，只能由阅读全文

posted @ 2017-05-16 21:56 诸葛小四阅读(794) 评论(0) 推荐(0) 编辑

关于hadoop处理大量小文件情况的解决方法

摘要：小文件是指那些size比HDFS的block size（默认64m）小的多的文件。任何一个文件，目录和bolck，在HDFS中都会被表示为一个object存储在namenode的内存中，每一个object占用150bytes的内存空间。所以，如果有10milion个文件，每一个文件对应一个block 阅读全文

posted @ 2017-05-16 21:55 诸葛小四阅读(8000) 评论(0) 推荐(0) 编辑

关于在eclipse下的mapreduce工程打包成jar包的问题（包含第三方jar包）

摘要：这个问题也是在开发项目中经常遇到的一个问题，网上提供了很多方法，但是我发现很多并不适用，这里推荐两种方法，一种肯定没问题，就是比较麻烦，另一种是适用FatJar来打包，但是我没成功，原因估计出在ubuntu下的eclipse导入插件可能和windows下面的不一样方式一：将所有的第三方jar包放阅读全文

posted @ 2017-05-16 21:55 诸葛小四阅读(564) 评论(0) 推荐(0) 编辑

运行时候报异常could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) running and no node(s) are excluded in this operation.

摘要：运行时候报异常could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) running and no node(s) are excluded in this operati 阅读全文

posted @ 2017-05-16 21:54 诸葛小四阅读(12110) 评论(1) 推荐(0) 编辑

运行hadoop的时候提示物理内存或虚拟内存溢出的解决方案running beyond physical memory或者beyond vitual memory limits

摘要：当运行中出现Container is running beyond physical memory这个问题出现主要是因为物理内存不足导致的，在执行mapreduce的时候，每个map和reduce都有自己分配到内存的最大值，当map函数需要的内存大于这个值就会报这个错误，解决方法：在mapredu 阅读全文

posted @ 2017-05-16 21:54 诸葛小四阅读(8212) 评论(0) 推荐(3) 编辑

spark启动问题，发现任务都是在localhost下面运行的，原来启动spark-shell的时候需要带主节点的参数

摘要：在Spark 集群上运行一个应用,只需通过master的 spark://IP:PORT 链接传递到SparkContext构造器在集群上运行交互式的Spark 命令, 运行如下命令：注意，如果你在一个 spark集群上运行了spark-shell脚本，spark-shell 将通过在conf/ 阅读全文

posted @ 2017-05-16 21:53 诸葛小四阅读(1348) 评论(0) 推荐(0) 编辑

Storm基本概念以及Topology的并发度

摘要： Spouts,流的源头 Spout是Storm里面特有的名词，Stream的源头，通常是从外部数据源读取tuples，并emit到topology Spout可以同时emit多个tupic stream，通过OutputFieldsDeclarer中的declareStream，method来定义阅读全文

posted @ 2017-05-16 21:52 诸葛小四阅读(368) 评论(0) 推荐(0) 编辑

Hive知识

摘要： HIVEQL CREATE DATABASE financials（创建数据库） SHOW DATABASES(显示数据库） SHOW TABLES IN 数据库（列出数据库的所有表） SHOW DATABASES LIKE 'h.*';(显示类似h以后任意多个字符） LOCATION '/MY/p 阅读全文

posted @ 2017-05-16 21:52 诸葛小四阅读(143) 评论(0) 推荐(0) 编辑

设置每个datanode里面的map数目，提高运行效率

摘要：首先可以通过hdfs.site.xml下面的dfs.block.size来设置数据的块大小，这个参数会决定map的总数目（4194304=4m）然后通过mapred.site.xml下面的mapreduce.map.memory.mb参数来设置每个map分到的内存数目。通过yarn.sidt.x 阅读全文

posted @ 2017-05-16 21:51 诸葛小四阅读(492) 评论(0) 推荐(0) 编辑

Hive和Hbase的区别

摘要： 1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能阅读全文

posted @ 2017-05-16 21:51 诸葛小四阅读(166) 评论(0) 推荐(0) 编辑

解决windows下文件拷贝到ubuntu下文件名乱码的问题

摘要： sudo apt-get install convmv 解压zip文件： convmv -f gbk -t utf8 -r --notest * 阅读全文

posted @ 2017-05-16 21:50 诸葛小四阅读(1044) 评论(0) 推荐(0) 编辑

Storm学习中遇到的问题整理

摘要：在编写storm代码来进行实时分析的时候遇到了一些问题，有些的确令人比较头痛，现在稍微做一下整理。数据流向（本地-Spout-Bolt-Hdfs） 1数据的输入输出文件的路径选择因为在此项目中数据是放在本地磁盘的，所有就有两种放数据的途径，一种是直接通过spout接受本地数据发送到任务中，另一种是阅读全文

posted @ 2017-05-16 21:50 诸葛小四阅读(197) 评论(0) 推荐(0) 编辑

Elasticsearch使用java读取数据报错NoNodeAvailableException: None of the configured nodes are available: [127.0.0.1:9300]

摘要：对于这个问题，大部分人出现在这个地方：问题在于前面初始化settings时给cluster设置了个新的名字，如:Settings settings = ImmutableSettings.settingsBuilder().put("cluster.name", "tonsonmiao").bui 阅读全文

posted @ 2017-05-16 21:49 诸葛小四阅读(15328) 评论(0) 推荐(0) 编辑

HBASE启动失败，Failed construction of Master: class org.apache.hadoop.hbase.master.HMaster

摘要： Master日志错误：2015-12-02 06:34:32,394 ERROR [main] master.HMasterCommandLine: Master exitingjava.lang.RuntimeException: Failed construction of Master: cl 阅读全文

posted @ 2017-05-16 21:49 诸葛小四阅读(6339) 评论(0) 推荐(0) 编辑

使用es索引遇到的问题记录

摘要： 1设置es索引的运行内存：直接在启动文件里面改就好，启动命令是elasticsearch.bat，用notepad++编辑这个文件，里面添加这样的一行：SET ES_HEAP_SIZE=10g即可 2将es索引设置为.bat快捷启动，用管理员打开cmd命令窗口输入一下的命令：server.bat 阅读全文

posted @ 2017-05-16 21:48 诸葛小四阅读(2026) 评论(0) 推荐(0) 编辑

修改hadoop的jar包运行时候分配的jvm内存

摘要：在hadoop-env.sh中修改参数添加 export HADOOP_HEAPSIZE="4096" 设置分配的最大jvm内存为4096，一般用于jar包里面除了执行map和reduce之外还要执行其他的后续代码，且后续代码所需要的内存占用大于1g。当出现map或者reduce过程提示内存不足的阅读全文

posted @ 2017-05-16 21:47 诸葛小四阅读(1365) 评论(0) 推荐(0) 编辑

诸葛小四

公告