Hadoop 概念学习系列 - 随笔分类 - 大数据和AI躺过的坑

dfs常见的配置文件中的value与description（重要）

摘要：不多说，直接上干货！ docs/hdfs-default.html这里是hdfs参数的含义。其中可见 dfs.replication.min最小副本数 dfs.safemode.threshold.pct阈值比例 Specifies the percentage of blocks that sho 阅读全文

posted @ 2017-10-11 12:47 大数据和AI躺过的坑阅读(1047) 评论(0) 推荐(0) 编辑

hadoop fs、hadoop dfs与hdfs dfs的区别

摘要：不多说，直接上干货！ hadoop fs：使用面最广，可以操作任何文件系统。 hadoop dfs与hdfs dfs ：只能操作HDFS文件系统相关（包括与Local FS间的操作），前者已经Deprecated，一般使用后者。以下内容参考自stackoverflow： Following a 阅读全文

posted @ 2017-10-11 12:43 大数据和AI躺过的坑阅读(10951) 评论(0) 推荐(0) 编辑

Eclipse/MyEclipse向HDFS中如创建文件夹等操作报错permission denied解决办法

摘要：不多说，直接上干货！问题现象当执行创建文件的的时候，即：报错：问题原因 1. 当前用户是Administrator ,不是hadoop用户 2. hadoop的默认的hdfs的文件目录是有权限的，要创建位置是目录是用文件权限的说明：上面的String IR_PATH_1 = "hdf 阅读全文

posted @ 2017-10-11 12:33 大数据和AI躺过的坑阅读(474) 评论(0) 推荐(0) 编辑

Hadoop是怎么分块Block的？

摘要：不多说，直接上干货！ hadoop的分块有两部分。第一部分就是数据的划分（即把File划分成Block），这个是物理上真真实实的进行了划分，数据文件上传到HDFS里的时候，需要划分成一块一块，每块的大小由hadoop-default.xml里配置选项进行划分。这个就是默认的每个块64MB。数据划阅读全文

posted @ 2017-10-10 18:07 大数据和AI躺过的坑阅读(1146) 评论(0) 推荐(0) 编辑

如果遇到Hadoop集群正常，MapReduce作业运行出现错误，如何来查看作业运行日志（图文详解）

摘要：不多说，直接上干货！这个时候我们可以进入logs下的userlogs 备注：userlogs目录下有很多个以往运行的作业，我选择最新的最大编号的作业，就是我们当前运行作业的日志。然后找到stderr stdout syslog文件，stderr为作业错误日志，stdout作业输出日志，syslog 阅读全文

posted @ 2017-10-10 00:24 大数据和AI躺过的坑阅读(419) 评论(0) 推荐(0) 编辑

hadoop-n.x.y-src.tar.gz 、hadoop-n.x.y-src.tar.gz.asc 、hadoop-n.x.y-src.tar.gz.md5 、hadoop-n.x.y-src.tar.gz.mds是什么？

摘要：不多说，直接上干货！我这里，以hadoop-2.6.0为例。 hadoop-n.x.y.tar.gz.mds，此mds文件是为了检验在下载和移动文件过程中文件的完整性。通过验证文件的md5值去检验文件的完整性： $ cat ./hadoop-2.6.0.tar.gz.mds | grep 'MD 阅读全文

posted @ 2017-10-10 00:12 大数据和AI躺过的坑阅读(531) 评论(0) 推荐(0) 编辑

hadoop-n.x.y.tar.gz、hadoop-n.x.y.tar.gz.asc 、hadoop-n.x.y.tar.gz.md5 、hadoop-n.x.y.tar.gz.mds分别是什么？

摘要：不多说，直接上干货！我这里，以hadoop-2.6.0为例。 hadoop-n.x.y.tar.gz.mds，此mds文件是为了检验在下载和移动文件过程中文件的完整性。通过验证文件的md5值去检验文件的完整性： $ cat ./hadoop-2.6.0.tar.gz.mds | grep 'MD 阅读全文

posted @ 2017-10-10 00:11 大数据和AI躺过的坑阅读(959) 评论(0) 推荐(0) 编辑

Hadoop概念学习系列之Hadoop集群动态增加新节点或删除已有某节点及复制策略导向（四十三）

摘要：不多说，直接上干货！ hadoop-2.6.0动态添加新节点 https://blog.csdn.net/baidu_25820069/article/details/52225216 Hadoop集群动态增加新节点一、在新增节点配置运行环境 1、安装和其他节点相同的java环境，jdk版本要相同阅读全文

posted @ 2017-09-12 12:12 大数据和AI躺过的坑阅读(366) 评论(0) 推荐(0) 编辑

Hadoop的多节点集群启动，唯独没有namenode进程？（血淋淋教训，一定拍快照）（四十五）

摘要：前言大家在搭建hadoop集群时，第一次格式化后，一路要做好快照。别随便动不动缺少什么进程，就来个格式化。问题描述：启动hadoop时报namenode未初始化：java.io.IOException: NameNode is not formatted. 同时，若单独启动namenode，则出阅读全文

posted @ 2017-03-15 14:01 大数据和AI躺过的坑阅读(16578) 评论(0) 推荐(3) 编辑

Unable to load native-hadoop library for your platform... using builtin-java classes where applicable（四十四）

摘要：问题描述： Unable to load native-hadoop library for your platform... using builtin-java classes where applicable [hadoop@djt002 native]$ pwd/usr/local/hado 阅读全文

posted @ 2017-02-20 09:48 大数据和AI躺过的坑阅读(20430) 评论(0) 推荐(2) 编辑

Hadoop概念学习系列之关于hadoop-2.2.0和hadoop2.6.0的winutils.exe、hadoop.dll版本混用（易出错）（四十三）

摘要：问题详情是 2016-12-10 23:24:13,317 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2016-1 阅读全文

posted @ 2016-12-10 23:27 大数据和AI躺过的坑阅读(5317) 评论(0) 推荐(0) 编辑

Hadoop概念学习系列之谈hadoop/spark里分别是如何实现容错性？（四十二）

摘要：Hadoop使用数据复制来实现容错性（I/O高） Spark使用RDD数据存储模型来实现容错性。 RDD是只读的、分区记录的集合。如果一个RDD的一个分区丢失，RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求，从而减少了对磁盘的访问。通过RDD，后续步骤如果需要相同数据阅读全文

posted @ 2016-12-02 18:09 大数据和AI躺过的坑阅读(422) 评论(0) 推荐(0) 编辑

Hadoop概念学习系列之谈hadoop/spark里为什么都有，YARN呢？（四十一）

摘要：在Hadoop集群里，有三种模式: 1、本地模式 2、伪分布模式 3、全分布模式在Spark集群里，有四种模式： 1、local单机模式结果xshell可见： ./bin/spark-submit --class org.apache.spark.examples.SparkPi --maste 阅读全文

posted @ 2016-11-23 09:52 大数据和AI躺过的坑阅读(673) 评论(0) 推荐(0) 编辑

Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）

摘要：很少有人会这样来自问自己？只知道，以键值对的形式处理数据并输出结果，而没有解释为什么要以键值对的形式进行。包括hadoop的mapreduce里的键值对，spark里的rdd里的map等。这是为什么呢？ 1、键值对的具体含义首先，我们会通过强调Java标准库中的类似概念，来阐明我们所说的键值对阅读全文

posted @ 2016-11-23 09:23 大数据和AI躺过的坑阅读(435) 评论(0) 推荐(0) 编辑

Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）

摘要：很多人只会，但没深入体会和想为什么要这样？拿Hadoop来说，当然，spark也一样的道理。输出路径由Hadoop自己创建，实际的结果文件遵守part-nnnn的约定。如何指定一个已有目录作为Hadoop作业的输出路径，作业将无法进行，并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将阅读全文

posted @ 2016-11-23 09:10 大数据和AI躺过的坑阅读(800) 评论(0) 推荐(0) 编辑

Hadoop概念学习系列之再谈hadoop集群里的本地模式、伪分布模式和全分布模式（三十七）

摘要：能看懂博主我此博文，相信你已经有了一定基础了。对于本地模式、伪分布模式和全分布模式的概念，这里，我不多赘述。太多资料和博客，随便在网上一搜就好。比如《hadoop实战第二版》陆嘉恒老师等。我这里呢，是再次挖掘深入。我们知道，如伪分布模式或全分布式模式，里有着很多的java进程（这个，可用j 阅读全文

posted @ 2016-11-23 09:05 大数据和AI躺过的坑阅读(916) 评论(0) 推荐(1) 编辑

Hadoop概念学习系列之pagerank的友情链接（三十八）

摘要：博主我带大家，弄清楚一个事实。比如，搜狐主页下方，有很多友情链接，这些友情链接，那可是一个位置就是多少钱。有人说，一个位置多少钱，这又没有给我带来点击量，那我干嘛还每年花上几十万，给搜狐，就那么放在友情链接里呢？不懂行情的人，说好傻啊。其实啊，虽然，搜狐，没给它们带来流量和点击量，但是，带来阅读全文

posted @ 2016-11-12 12:17 大数据和AI躺过的坑阅读(273) 评论(0) 推荐(0) 编辑

Hadoop概念学习系列之Java调用Shell命令和脚本，致力于hadoop/spark集群（三十六）

摘要：前言说明的是，本博文，是在以下的博文基础上，立足于它们，致力于我的大数据领域！ http://kongcodecenter.iteye.com/blog/1231177 http://blog.csdn.net/u010376788/article/details/51337312 http:// 阅读全文

posted @ 2016-11-11 20:23 大数据和AI躺过的坑阅读(921) 评论(0) 推荐(0) 编辑

Hadoop概念学习系列之搭建（windows）Eclipse/MyEclipse远程操作（Linux上）hadoop2.2.0/hadoop2.6.0 出错集（三十五）

摘要：本博文，是在http://blog.csdn.net/u010911997/article/details/44099165 的基础上。感谢原博主！问题1：在DFS Lcation 上不能多文件进行操作：在Hadoop上的每个节点上修改该文件 conf/mapred-site.xml 增加： < 阅读全文

posted @ 2016-11-11 13:43 大数据和AI躺过的坑阅读(539) 评论(0) 推荐(0) 编辑

【转】hive中UDF、UDAF和UDTF使用

摘要：原博文出自于： http://blog.csdn.net/liuj2511981/article/details/8523084 感谢！ Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景： Hive是基于Had 阅读全文

posted @ 2016-11-09 12:15 大数据和AI躺过的坑阅读(1023) 评论(0) 推荐(0) 编辑

大数据和人工智能躺过的坑

随笔分类 - Hadoop 概念学习系列

公告