随笔分类 - Hadoop 概念学习系列
摘要:不多说,直接上干货! docs/hdfs-default.html这里是hdfs参数的含义。其中可见 dfs.replication.min最小副本数 dfs.safemode.threshold.pct阈值比例 Specifies the percentage of blocks that sho
阅读全文
摘要:不多说,直接上干货! hadoop fs: 使用面最广,可以操作任何文件系统。 hadoop dfs与hdfs dfs : 只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后者。 以下内容参考自stackoverflow: Following a
阅读全文
摘要:不多说,直接上干货! 问题现象 当执行创建文件的的时候, 即: 报错: 问题原因 1. 当前用户是Administrator ,不是hadoop用户 2. hadoop的默认的hdfs的文件目录是有权限的,要创建位置是目录是用文件权限的 说明 : 上面的String IR_PATH_1 = "hdf
阅读全文
摘要:不多说,直接上干货! hadoop的分块有两部分。 第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。 这个就是默认的每个块64MB。数据划
阅读全文
摘要:不多说,直接上干货! 这个时候我们可以进入logs下的userlogs 备注:userlogs目录下有很多个以往运行的作业,我选择最新的最大编号的作业,就是我们当前运行作业的日志。然后找到stderr stdout syslog文件,stderr为作业错误日志,stdout作业输出日志,syslog
阅读全文
摘要:不多说,直接上干货! 我这里,以hadoop-2.6.0为例。 hadoop-n.x.y.tar.gz.mds,此mds文件是为了检验在下载和移动文件过程中文件的完整性。 通过验证文件的md5值去检验文件的完整性: $ cat ./hadoop-2.6.0.tar.gz.mds | grep 'MD
阅读全文
摘要:不多说,直接上干货! 我这里,以hadoop-2.6.0为例。 hadoop-n.x.y.tar.gz.mds,此mds文件是为了检验在下载和移动文件过程中文件的完整性。 通过验证文件的md5值去检验文件的完整性: $ cat ./hadoop-2.6.0.tar.gz.mds | grep 'MD
阅读全文
摘要:不多说,直接上干货! hadoop-2.6.0动态添加新节点 https://blog.csdn.net/baidu_25820069/article/details/52225216 Hadoop集群动态增加新节点 一、在新增节点配置运行环境 1、安装和其他节点相同的java环境,jdk版本要相同
阅读全文
摘要:前言 大家在搭建hadoop集群时,第一次格式化后,一路要做好快照。别随便动不动缺少什么进程,就来个格式化。 问题描述:启动hadoop时报namenode未初始化:java.io.IOException: NameNode is not formatted. 同时,若单独启动namenode,则出
阅读全文
摘要:问题描述: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable [hadoop@djt002 native]$ pwd/usr/local/hado
阅读全文
摘要:问题详情是 2016-12-10 23:24:13,317 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2016-1
阅读全文
摘要:Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性。 RDD是只读的、分区记录的集合。如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求,从而减少了对磁盘的访问。通过RDD,后续步骤如果需要相同数据
阅读全文
摘要:在Hadoop集群里,有三种模式: 1、本地模式 2、伪分布模式 3、全分布模式 在Spark集群里,有四种模式: 1、local单机模式 结果xshell可见: ./bin/spark-submit --class org.apache.spark.examples.SparkPi --maste
阅读全文
摘要:很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行。 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等。 这是为什么呢? 1、键值对的具体含义 首先,我们会通过强调Java标准库中的类似概念,来阐明我们所说的键值对
阅读全文
摘要:很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理。 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定。 如何指定一个已有目录作为Hadoop作业的输出路径,作业将无法进行,并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将
阅读全文
摘要:能看懂博主我此博文,相信你已经有了一定基础了。 对于本地模式、伪分布模式和全分布模式的概念,这里,我不多赘述。太多资料和博客,随便在网上一搜就好。 比如《hadoop实战 第二版》陆嘉恒老师等。 我这里呢,是再次挖掘深入。 我们知道,如伪分布模式或全分布式模式,里有着很多的java进程(这个,可用j
阅读全文
摘要:博主我带大家,弄清楚一个事实。 比如,搜狐主页下方,有很多友情链接,这些友情链接,那可是一个位置就是多少钱。 有人说,一个位置多少钱,这又没有给我带来点击量,那我干嘛还每年花上几十万,给搜狐,就那么放在友情链接里呢? 不懂行情的人,说好傻啊。 其实啊,虽然,搜狐,没给它们带来流量和点击量,但是,带来
阅读全文
摘要:前言 说明的是,本博文,是在以下的博文基础上,立足于它们,致力于我的大数据领域! http://kongcodecenter.iteye.com/blog/1231177 http://blog.csdn.net/u010376788/article/details/51337312 http://
阅读全文
摘要:本博文,是在http://blog.csdn.net/u010911997/article/details/44099165 的基础上。感谢原博主! 问题1:在DFS Lcation 上不能多文件进行操作: 在Hadoop上的每个节点上修改该文件 conf/mapred-site.xml 增加: <
阅读全文
摘要:原博文出自于: http://blog.csdn.net/liuj2511981/article/details/8523084 感谢! Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景: Hive是基于Had
阅读全文