09 2016 档案
摘要:spark history Server产生背景 以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Applicatio
阅读全文
摘要:排序,真的非常重要! RDD.scala(源码) 在其,没有罗列排序,不是说它不重要! 本博文的主要内容有: 1、基础排序算法实战 2、二次排序算法实战 3、更高级别排序算法 4、排序算法内幕解密 1、基础排序算法实战 启动hdfs集群 启动spark集群 启动spark-shell 则,可看出,是
阅读全文
摘要:1、rdd持久化 2、广播 3、累加器 1、rdd持久化 通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ sbin/start-dfs.sh 启动spark集群
阅读全文
摘要:声明: 大数据中,最重要的算子操作是:join !!! 典型的transformation和action 成为大牛,必写的写法 -> http://blog.csdn.net/kimyoungvon/article/details/51417910 另推荐一篇好的博客,https://www.ite
阅读全文
摘要:本博文的主要内容是: 1、rdd基本操作实战 2、transformation和action流程图 3、典型的transformation和action RDD有3种操作: 1、 Trandformation 对数据状态的转换,即所谓算子的转换 2、 Action 触发作业,即所谓得结果的 3、 C
阅读全文
摘要:map、 flatMap、fliter、distinct、repartition、coalesce、sample、randomSplit、randomSampleWithRange、takeSample、union、++、sortBy、intersection map源码 fliter源码 coal
阅读全文
摘要:1、动手实战和调试Spark文件操作 这里,我以指定executor-memory参数的方式,启动spark-shell。 启动hadoop集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ jps8457 Jpsspark@SparkS
阅读全文
摘要:1、以本地模式实战map和filter 2、以集群模式实战textFile和cache 3、对Job输出结果进行升和降序 4、union 5、groupByKey 6、join 7、reduce 8、lookup 1、以本地模式实战map和filter 以local的方式,运行spark-shell
阅读全文
摘要:XMind *思维导图的安装步 同类型的软件,这两款软件: XMind 和 NovaMind,各有所长。建议,都安装,合适的时候方便使用。 XMind界面如下: NovaMind界面如下: 本博文,主要是NovaMind,废话不多说,直接进入。 软件准备 下载地址 http://download.c
阅读全文
摘要:最近,无意之间,在某大牛电脑里,使用到了这款软件。感谢! 确实,挺实用和方便的,强烈推荐!!! 1、 下载 http://qdesk.qq.com/ 2、 安装 3、 使用 多么方便啊!
阅读全文
摘要:sc.textFile("README.md").flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_ + _).collect sc.textFile("README.md").flatMap(line => li
阅读全文
摘要:SparkContext的构造函数中,最重要的入参是SparkConf 根据初始化入参生成SparkConf 再根据SparkConf来创建SparkEnv TaskScheduler.start的目的,是启动相应的SchedulerBackend,并启动定时器进行检测。 总结
阅读全文
摘要:不急,循序渐进,先打好基础 Spark shell的原理 首先,我们清晰定位找到这几个。 1、spark-shell 2、 spark-submit 3、spark-class 4、SparkSubmit.scala 5、SparkILoop.scala createSparkContext的源码
阅读全文
摘要:weekend01、02、03、04、05、06、07的分布式集群的HA测试 1) weekend01、02的hdfs的HA测试 2) weekend03、04的yarn的HA测试 1) weekend01、02的hdfs的HA测试 首先,分布式集群都是正常的,且工作的 然后呢, 以上是,weeke
阅读全文
摘要:查看企业公认的最新稳定版本: https://archive.apache.org/dist/ Hive和HBase都很重要,当然啦,各自也有自己的替代品。 在公司里,SQL有局限,大部分时候,不需写mr程序的,用hive这个工具。 公司里的懂java开发员工不一定每个公司都有,但懂SQL开发员工很
阅读全文
摘要:现在,我们来验证分析下,zookeeper集群的可靠性 现在有weekend05、06、07 将其一个关掉, 分析,这3个zookeeper集群里,杀死了weekend06,还存活weekend05、07。 可见,还能正常工作。 分析,这3个zookeeper集群里,杀死了weekend06、07,
阅读全文
摘要:在hadoop生态圈里,很多地方都需zookeeper。 启动的时候,都是普通的server,但在启动过程中,通过一个特定的选举机制,选出一个leader。 只运行在一台服务器上,适合测试环境;Zookeeper 的启动脚本在 bin 目录下;在启动脚本之前,还有几个基本的配置项需要配置一下, ti
阅读全文
摘要:随时查看,zookeeper企业里公认的最新文档版本! https://archive.apache.org/dist/ 下面是在weekend110上的zookeeper的安装 在此之前,先进行快照备份。 在这里,为了后续的zookeeper配置需要,在/home/hadoop/下,新建data目
阅读全文
摘要:(2015年1月24日) 课程目录 01-zookeeper1 02-zookeeper2 03-NN高可用方案的要点1 04-hadoop-HA机制的配置文件 05-hadoop分布式集群HA模式部署 06-hdfs--HA测试 07-hdfs--动态增加节点和副本数量管理 08-HA的java
阅读全文
摘要:好的,现在,来weekend110的textinputformat对切片规划的源码分析, Inputformat默认是textinputformat,一通百通。 这就是今天,weekend110的textinputformat对切片规划的源码分析入口 [LocatedFileStatus{path=
阅读全文
摘要:前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。 有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没 缓存,分组,排序,转发,这些都是mr的shuffle。 Soga 现在。来观察map阶段有几个yarnchild,reduce阶段有几个yarnc
阅读全文
摘要:我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排 下面,开始weekend110的hadoop的自定义排序实现 将FlowSortMapper、FlowSortR
阅读全文
摘要:不多说,直接上干货! 以上是,weekend110的yarn的job提交流程源码分析的复习总结 下面呢,来讲weekend110的hadoop中的序列化机制 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.a
阅读全文
摘要:(2015年1月18日) 课程目录 01-复习 02-hadoop中的序列化机制 03-流量求和mr程序开发 04-hadoop的自定义排序实现 05-mr程序中自定义分组的实现 06-shuffle机制 07-mr程序的组件全貌 08-textinputformat对切片规划的源码分析 09-倒排
阅读全文
摘要:Mr程序写完之后,提交给yarn,yarn会产生一个MRAppMaster,想说的是,yarn变得很 通用,yarn集群上,不光可以跑mr程序,还可以跑各种运算模型。 海量批处理,mapreduce 海量实时处理,spark 海量流式处理,storm Mapreduce实现,MRAppMaster
阅读全文
摘要:途径1: 途径2: 途径3: 成功! 由此,可以好好比较下,途径1和途径2 和途径3 的区别。 现在,来玩玩weekend110的joba提交的逻辑之源码跟踪 原来如此,weekend110的job提交的逻辑源码,停在这了 hello world hello tom helllo jim jim i
阅读全文
摘要:把我们的简单运算逻辑,很方便地扩展到海量数据的场景下,分布式运算。 Map作一些,数据的局部处理和打散工作。 Reduce作一些,数据的汇总工作。 这是之前的,weekend110的hdfs输入流之源码分析。现在,全部关闭断点。 //4个泛型中,前两个是指定mapper输入数据的类型,KEYIN是输
阅读全文
摘要:3种形式的元数据,fsimage是在磁盘上,meta.data是在内存上, 我们继续,前面呢,断点是打在这一行代码处, FileSystem fs = FileSystem.get(conf); weekend110的hdfs下载数据源码跟踪铺垫 + hdfs下载数据源码分析-getFileSyst
阅读全文
摘要:(2015年1月17日) 课程目录 01-hdfs源码跟踪之打开输入流 02-hdfs源码跟踪之打开输入流总结 03-mapreduce介绍及wordcount 04-wordcount的编写和提交集群运行 05-mr程序的本地运行模式 06-job提交的逻辑及YARN框架的技术机制 07-MR程序
阅读全文
摘要:Hdfs下载数据源码分析 在这里,我是接着之前的,贴下代码 package cn.itcast.hadoop.hdfs; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOEx
阅读全文
摘要:hadoop中的RPC框架实现机制 RPC是Remotr Process Call, 进程间的远程过程调用,不是在一个jvm里。 即,Controller拿不到Service的实例对象。 hadoop中的RPC应用实例demo 在windows是调用端,在linux里是服务端。 在这里,需要Logi
阅读全文
摘要:HDFS的JAVA客户端编写 现在,我们来玩玩,在linux系统里,玩eclipse 或者, 即,更改图标,成功 这个,别慌。重新换个版本就好,有错误出错是好事。 http://www.eclipse.org/downloads/download.php?file=/technology/epp/d
阅读全文
摘要:第一天的笔记,是伪分布hadoop集群搭建, 后面是hadoop Ha的分布式集群搭建 第一天,是HDFS的shell操作 NN工作机制 里面是二进制 DN工作原理 上传完了之后,在hdfs的虚拟路径下,有这个文件,其实,是切分成很多block,放到公共的datanode文件夹下。 13421772
阅读全文
摘要:(2015年1月11日) 课程目录 01-NN元数据管理机制 02-NN工作机制2 03-DN工作原理 04-HDFS的JAVA客户端编写 05-filesystem设计思想总结 06-hadoop中的RPC框架实现机制 07-hadoop中的RPC应用实例demo 08-hdfs下载数据源码跟踪铺
阅读全文
摘要:不多说,直接上干货! Hdfs是根/目录,windows是每一个盘符 1 从Linux里传一个到,hdfs里去 2 从hdfs里下一个到,linux里去 想从hdfs里,下载到linux, 涨知识,记住,hdfs是建立在linux上, 现在,hdfs里还有jdk-7u65-linux-i586.ta
阅读全文
摘要:由于,之前,已经在/etc/profile里,配置了hadoop的全局变量,所以,现在可以在任何路径下执行hadoop命令。 来玩玩 其实啊,在这里,出现了错误, 参考解决链接: http://ithelpblog.com/os/linux/redhat/centos-redhat/howto-fi
阅读全文
摘要:企业公认的最新文本版本: https://archive.apache.org/dist/ 玩玩这个远程连接软件,是个绿色软件。 别人已经做好了的。 解压之后, 下面,软件展示下, 这会默认去打开, 为了,方便,使用,放到桌面,作为快捷方式 成功 学个知识点,让普通用户如hadoop具备sudo执行
阅读全文
摘要:不多说,直接上干货! 一、weekend110的Linux带图形系统安装 二、网络配置 明明是配置好的啊,只能说是域名出现问题了, 出现ping:unknow host www.baidu.com的问题解决 解决Ubuntu系统的每次开机重启后,resolv.conf清空的问题 网络配置和静态IP设
阅读全文
摘要:(2015年1月10日) 课程目录 01-hadoop职位需求状况 02-hadoop课程安排 03-hadoop应用场景 04-hadoop对海量数据处理的解决思路 05-hadoop版本选择和伪分布式安装1 06-hadoop版本选择和伪分布式安装2 07-hdfs&mapreduce测试 08
阅读全文
摘要:不多说,直接上干货! 首先,说的是,本人到现在为止,已经玩过。 对于,这样的软件,博友,可以去看我博客的相关博文。在此,不一一赘述! Eclipse *版本 Eclipse *下载 Jdk 1.7*安装并配置 Jdk 1.8*安装并配置 JDK的windows和Linux版本之下载 Eclipse下
阅读全文
摘要:不多说,直接上干货! 如何自己编译生成Eclipse插件,如hadoop-eclipse-plugin-2.6.0.jar 一、相关软件的安装和配置 (一)JDK的安装和配置 Jdk 1.7*安装并配置 (二)Eclipse的安装和配置 Eclipse的下载、安装和WordCount的初步使用(本地
阅读全文
摘要:如何在Maven官网下载历史版本 历史版本一般会隔一段时间,便找不到,官网会及时显示的是最新版本。不多说,直接进入。 https://archive.apache.org/dist/maven/binaries/ 成功在Maven官网里下载到历史版本! 其它,依次类推。 成功! 欢迎大家,加入我的微
阅读全文
摘要:如何去找到历史版本的Hadoop发行包 找到Hadoop历史版本 这里我需要的Hadoop版本是2.0.3。打开hadoop的下载页面 http://www.apache.org/dyn/closer.cgi/hadoop/common/ 随便打开一个下载镜像,我们都找不到2.0.3这个版本。 具体
阅读全文
摘要:在此,简单的说下。 setting.xml 和 pom.xml这两各配置文件,到此是怎样? setting.xml setting.xml,这个配文件,是全局的。 比如你的是构建,web项目。我的是Hadoop和spark项目。 那么。setting这个文件,你我都可以是一样的。因为它是全局的配置,
阅读全文
摘要:感谢如下博主: http://www.cnblogs.com/qq78292959/p/3711501.html maven核心,pom.xml详解 什么是pom? pom作为项目对象模型。通过xml表示maven项目,使用pom.xml来实现。主要描述了项目:包括配置文件;开发者需要遵循的规则,缺
阅读全文
摘要:对于黑屏 网上啊,有各种说法和解决办法,包括,我以前加内存条时,也出现的黑屏情况。具体见 加内存条的一些事 我觉得,先参考我下面的这个步骤去先解决,成功几率很大! 首先,出现问题的电脑是联想笔记本电脑。个人觉得,其他品牌的电脑也是如此。 作为参考! 首先,开机是正常的,即已经进入了"正在启动wind
阅读全文
摘要:RDD的容错机制 RDD实现了基于Lineage的容错机制。RDD的转换关系,构成了compute chain,可以把这个compute chain认为是RDD之间演化的Lineage。在部分计算结果丢失时,只需要根据这个Lineage重算即可。 图1中,假如RDD2所在的计算作业先计算的话,那么计
阅读全文
摘要:细谈RDD的弹性 所谓,弹性,是指在内存不够时可以与磁盘进行交换。 弹性之一:自动的进行内存和磁盘数据存储的切换 弹性之二:基于Lineage(血缘)的高效容错 弹性之三:Task如果失败会自动进行特定次数的重试 弹性之四:Stage如果失败会自动进行特定次数的重试,而且只会计算失败的分片 弹性之五
阅读全文
摘要:不多说,直接上干货! 当我们无法从本地仓库找到需要的构件的时候,就会从远程仓库下载构件至本地仓库。一般地,对于每个人来说,书房只有一个,但外面的书店有很多,类似第,对于Maven来说,每个用户只有一个本地仓库,但可以配置访问很多远程仓库。 Eclipse *版本 Eclipse *下载 强烈推荐书籍
阅读全文
摘要:包括: Eclipse的下载 Eclipse的安装 Eclipse的使用 本地模式或集群模式 Scala IDE for Eclipse的下载、安装和WordCount的初步使用(本地模式和集群模式) IntelliJ IDEA的下载、安装和WordCount的初步使用(本地模式和集群模式) 我们知
阅读全文
摘要:前言 Scala版本的选法: 目前,Kafka库和JDBC并不支持Scala2.11的编译,以及结合大多数人的使用请来看。 scala2.10.*为主,在这,scala2.10.4版本,强烈推荐! 现在,已经是Scala2.10.6 和 Scala2.11.8居多。 1、Scala的下载 http:
阅读全文
摘要:前言 其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来。 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程。 准备工作 1、scala 2.10.4(本地的安装) Scala的安装(本地) 2、Jdk1.7+ 或 jdk1.8+ (本
阅读全文
摘要:不多说,直接上干货! 对于初学者来说,建议你先玩玩这个免费的社区版,但是,一段时间,还是去玩专业版吧,这个很简单哈,学聪明点,去搞到途径激活!可以看我的博客。 包括: IntelliJ IDEA(Community)的下载 IntelliJ IDEA(Community)的安装 IntelliJ I
阅读全文
摘要:不多说,直接上干货! 这篇博客是, 是在Scala IDEA for Eclipse里maven创建scala和java代码编写环境。 Scala IDEA for Eclipse里用maven来创建scala和java项目代码环境(图文详解) 本博文包括: Scala IDE for Eclips
阅读全文
摘要:说在前面的话 重新试多几次。编译过程中会出现下载某个包的时间太久,这是由于连接网站的过程中会出现假死,按ctrl+c,重新运行编译命令。 如果出现缺少了某个文件的情况,则要先清理maven(使用命令 mvn clean) 再重新编译。 前言 Spark可以通过SBT和Maven两种方式进行编译,再通
阅读全文
摘要:不多说,直接上干货! 说在前面的话 重新试多几次。编译过程中会出现下载某个包的时间太久,这是由于连接网站的过程中会出现假死,按ctrl+c,重新运行编译命令。 如果出现缺少了某个文件的情况,则要先清理maven(使用命令 mvn clean) 再重新编译。 Spark源码编译的3大方式 1、Mave
阅读全文
摘要:进入话题! 我们知道哈,Spark源码采用Scala语言编写,那么阅读Spark源码之前,是否一定先学Scala呢? 我个人认为,不必,只要我们有一些java或c++编写语言的基础,就可以看Spark源码,遇到不懂的地方再去学习,效率反而会大大提高,做到有的放矢。 将学习中遇到的知识点,从函数式编程
阅读全文
摘要:不多说,直接上干货! 在这里,推荐一个很好的网址,http://www.itellyou.cn/ 销售渠道不同,激活通道也不同。有零售版,有大客户版。零售的用零售密钥激活,一对一。 SW开头或在中间有VL字样,是大客户批量版,批量版用的密钥,一个密钥可以激活成百上千上万台,具体能激活多少要看该大客户
阅读全文
摘要:感谢博主: http://blog.sina.com.cn/s/blog_6fc5bfa90100qmr9.html 如果你的电脑里装过MySQL,想再重新安装MySQL的时候可能就会因为前一版本卸载不彻底而出现错误。最常见的就是安装好后设置参数的最后一步验证时,会在Execute configur
阅读全文
摘要:本博文的主要内容有 .数据库的概述 .mysql-5.7.11-winx64.zip 的下载 .mysql-5.7.11-winx64.zip 的安装 .mysql-5.7.11-winx64.zip 的配置 .mysql-5.7.11-winx64.zip 的使用 推荐以下方式来安装mysql M
阅读全文
摘要:不多说,直接上干货! 获得垃圾链接数据集的命令如下: wget http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/spam.data scala> val inFile = sc.textFile("./spam.data) 这行代码
阅读全文
摘要:不多说,直接上干货! 对于啊,无论是hadoop,还是spark而言。都有源码压缩包和预编译压缩包! 如下。 如果想更深入地学习Spark/hadoop,或者是以后志向成为大数据领域的大牛/专家,强烈推荐自己动手编译源码。 包括 : hadoop源码编译 见 ... 链接,后续推送 spark源码编
阅读全文
摘要:不多说,直接上干货! 最关键的是转换算子Transformations和缓存算子Actions。 主要是对RDD进行操作。 RDD Objects -> Scheduler(DAGScheduler) -> Exectorss ,如同,人类一样,不断进化。 欢迎大家,加入我的微信公众号:大数据躺过的
阅读全文
摘要:不多说,直接上干货! 想说的是,写此博文,是为了让自己学会使用和做好笔记。 下载 或者 安装 得到 或者 得到 使用 有道云笔记网页剪报(备) 印象笔记、有道云笔记和为知笔记哪个好用?(https://www.zhihu.com/question/26807165) 欢迎大家,加入我的微信公众号:大
阅读全文
摘要:想说的是,为什么我要写此博文,算是纪念我对FireFox浏览器的一个入门。最近,开始接触了它,看到了很多IT牛人极力推荐使用 “ FireFox浏览器 ”作为开发。 深得大牛指导! 下载 安装 这是,会将我们之前的浏览器里的一些信息,同步到FireFox浏览器对应位置。 需要一段时间!在此,需要关闭
阅读全文
摘要:不多说,直接上干货! 说的是,这种问题,是出现在ubuntu系统里。 解决办法: 2、/etc/sudoers文件默认是只读的,对root来说也是,因此需先添加sudoers文件的写权限,命令是: chmod u+w /etc/sudoers root@SparkSingleNode:/usr/lo
阅读全文
摘要:前言 本人呕心沥血所写,经过好一段时间反复锤炼和整理修改。感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接http://www.cnblogs.com/zlslch/p/5851166.html 关于几个疑问和几处心得! a.用NAT,还是桥接,还是only-host模式
阅读全文
摘要:前言 本人呕心沥血所写,经过好一段时间反复锤炼和整理修改。感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接。http://www.cnblogs.com/zlslch/p/5847528.html 关于几个疑问和几处心得! a.用NAT,还是桥接,还是only-host模
阅读全文
摘要:前言 本人呕心沥血所写,经过好一段时间反复锤炼和整理修改。感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接 http://www.cnblogs.com/zlslch/p/5846390.html 附链接如下: http://blog.csdn.net/u01027040
阅读全文
摘要:不多说,直接上干货! 玩玩这个远程连接软件,是个绿色软件。 别人已经做好了的。 解压之后, 下面,软件展示下, 这会默认去打开, 为了,方便,使用,放到桌面,作为快捷方式 成功 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大家可以关注我的个人博客: http://www.c
阅读全文
摘要:不多说,直接上干货! 历史版本一般会隔一段时间,便找不到,官网会及时显示的是最新版本。不多说,直接进入。 https://archive.apache.org/dist/maven/binaries/ 成功在Maven官网里下载到历史版本! 其它,依次类推。 欢迎大家,加入我的微信公众号:大数据躺过
阅读全文
摘要:不多说,直接上干货! 问题描述: Reading package lists... DoneBuilding dependency tree Reading state information... DonePackage vim is not available, but is referred
阅读全文
摘要:前言 一般,为了防止意外性的数据丢失,备份是必要的。 得到, 成功! 如何使用? 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大家可以关注我的个人博客: http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchz
阅读全文
摘要:这个知识点,模糊了好久。!!! 生产中,习惯如下: useradd,默认会将自身新建用户,添加到同名的用户组中。如,useradd zhouls,执行此命令后,默认就添加到同名的zhouls用户组中。 但是,在生产中,一般都不这么干。通常是,useradd -m -g 。否则,出现到时,用户建立出来
阅读全文
摘要:不多说,直接上干货! 问题情况描述如下: 普及知识: /etc/resolv.conf ,其实是一个Link 。它其实指向的是 /run/resolvconf/resolv.conf。 Ubuntu 有一个 resolvconf 服务,如果重启它,那么 /etc/resolv.conf 的内容会被修
阅读全文
摘要:不多说,直接上干货! 最近导师发了个表,遇到了个小知识点,收藏以后有用!拿来学学 如下,是属于单元格。怎么提行? 直接,空格或space,都无法解决!...... 解决办法:Alt + Enter 成功! 参考: http://zhidao.baidu.com/link?url=Ogoh4iK4ir
阅读全文
摘要:不多说,直接上干货! 总的网址是:http://releases.ubuntu.com/releases/ 比如,选择的是UbuntuKylin,则点击 http://cdimage.ubuntu.com/ubuntukylin/releases/ 其他,类似。不再多赘述。 Ubuntu11.10
阅读全文
摘要:不多说,直接上干货! cat是查看文件内容, cp –cp是连目录及件文件都拷贝 cp是拷贝文件 a.txt里的内容是, abc def ghi 得到结果, abc def 得到结果, abc def 重镜像为3.txt cp -cp 源目录 目标目录 1.txt原内容是I am zhouls,往1
阅读全文
摘要:不多说,直接上干货! 安装好的虚拟机,没有VMnet0!!! 解决的办法: 就可以了。 那么,问题现在又来了? 但是,每次都要这样,以右键,管理员身份运行,再关闭之后,以普通双击方式,即又没有VMnet0了。 3.再次解决是? 右键 ,属性, 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺
阅读全文
摘要:不多说,直接上干货! http://www.eclipse.org/downloads/packages/release/Kepler/SR2 下载到/usr/local/下,解压完成之后,我们想用这个Eclipse。 》如何快速创建桌面快捷方式??? 第一步:取名字eclipse Name:ecc
阅读全文
摘要:不多说,直接上干货! 1、Shift + Alt + S Hadoop没有使用jdk自带的默认序列化机制。 现在呢,hadoop-2.*里有两套序列化机制。一个是自己hadoop的序列化机制,一个是谷歌的。 所以,要改为。。 ********* > reduce 把前面一大串,去掉,就不出错了。因为
阅读全文
摘要:不多说,直接上干货! 这个暂时,没写好。 K1,v1 这是增强的for循环。 for(Sting w : words) { } 迭代器里,前面,放的是什么类型,后面,迭代的是谁。 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大家可以关注我的个人博客: http://www.
阅读全文
摘要:不多说,直接上干货! Shuffle是非常非常非常重要。搞mr,必须熟烂于心。 因为,分区,分组,排序,,,都是在Shuffle里完成。 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大家可以关注我的个人博客: http://www.cnblogs.com/zlslch/ 和
阅读全文
摘要:不多说,直接上干货! Tracker是跟踪者,跟踪器。JobTracker是项目经理。在hadoop2*的0.23版本之后,改叫RM了。ResourceManager。TaskTracker是小组长。它手下,还有具体搬砖的。在hadoop2*的0.23版本之后,改叫NM了。NodeManager。
阅读全文
摘要:不多说,直接上干货! 总之一句话,这些都是hadoop-2.2.0的源代码里有的。也就是不光只是懂理论,编程最重要,还是基本功要扎实啊。。。。 在hadoop-2.2.0的源码里,按Ctrl + Shift + T 。 跳进某个方法里,按F5。F6。 跳出某个方法里,按F7。 欢迎大家,加入我的微信
阅读全文
摘要:不多说,直接上干货! RPC >远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应
阅读全文
摘要:不多说,直接上干货! ************************* 有些,是没必要全导入的。以后到工作了,用Maven,就自动会导入其中一些。************************ 一般,工作中,用的更多的是java接口的方式来操作HDFS。 HDFS shell接口,一般是在,删除
阅读全文
摘要:不多说,直接上干货! 首先,要有这个观念,元数据信息(fsimage + editslog)。 fsimage是在磁盘 metadata是在内存 ********************fsimage把内存的,序列化到磁盘了。******************** 元数据信息(fsimage +
阅读全文
摘要:不多说,直接上干货! ls / 这是查本地Linux上的根 hadoop fs -ls / 这是查hdfs上的根 或者, hadoop fs -ls hdfs://localhost:9000/ 这是查hdfs上的根 即。hdfs://localhost:9000是可以省略的。 通过浏览器,可以看到
阅读全文
摘要:不多说,直接上干货! 》 1、 启动./start-dfs.sh的顺序是: namenode,datanode,secondarynamenode。 每一个前面,都有一个主机名。说明是采用的是SSH协议。 2、 启动./start-yarn.sh的顺序是: 欢迎大家,加入我的微信公众号:大数据躺过的
阅读全文
摘要:不多说,直接上干货! > 数据量越来越多,在一个操作系统管辖的范围存下不了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。形象化比喻,如百度网盘、360云盘。 常见的分布式文件系统有,GFS、HDFS、Lustre
阅读全文
摘要:不多说,这个很简单! hdfs里的文件下载 可以,通过hadoop distributed system来下载,而且速度非常之快。涨知识!!! 或者,通过命令行的方式,也可以! ***********************************上传和下载。类似于一个网盘。************
阅读全文
摘要:不多说,直接上干货! 关闭防火墙 1、查看防火墙状态 2、关闭,但开机后又会打开 3、查看防火墙开机启动状态 4、永久关闭 想说的是,因为防火墙是一个服务,那么服务,可能会随开机自动启开。所以,一般永久关闭。 》 这也是为什么在搭建如hadoop、spark集群,要关闭防火墙,而且最好是永久关闭呢?
阅读全文
摘要:不多说,很简单! hostonly、桥接和NAT的联网方式 Vmnetcfg.exe是配置它的网络。 虚拟机,虚拟出来有两个。VMnet1和VMnet8。 ************************若用hostonly,则需要将VMnet1给启用。***********************
阅读全文
摘要:不多说,直接上干货! 通信设置: 1) hostonly,换句话就是,Windows和Linux在不插网线情况下,也是可以进行通信。 这样设置的好处,有时候,万一比如在农村,没网络。那么,这是最佳方式。 VMnet1默认是host-only 2) 桥接 VMnet0 默认是桥接 , 有网络 3) N
阅读全文
摘要:不多说,直接上干货! 主要分为 一、root用户的开启和vim编辑器的安装 二、ssh的安装 三、静态ip的设置 四、中英切换文环境切换 一、root用户的开启和vim编辑器的安装 Ubuntu在默认情况下,是没有root用户。 为此,我们得开启它。 1、 进入root用户权限 通过 sudo -s
阅读全文
摘要:不多说,直接上干货! 最近,在给电脑4G加内存条升为8G。 将个人心得、购买和安装经历、出现的问题和解决办法。记录,以给新手指导! 因本人也是新手,第一次加,经历过无数次的高手和牛人请绕看,莫鄙视,我的以下,只是面向新手(第一次加)的博友们。 推荐金士顿/三星的内存条!!!二者完全可组合 1、购买经
阅读全文
摘要:不多说,直接上干货! 总的来说,根据分为三个步骤。 步骤一: 点击 :虚拟机—–>安装VM tools 然后发现桌面会跳出如下问题: 客户机操作系统已将 CD-ROM 门锁定,并且可能正在使用 CD-ROM,这可能会导致客户机无法识别介质的更改。如果可能,请在断开连接之前从客户机内部弹出 CD-RO
阅读全文
摘要:不多说,直接上干货! Ubuntukylin-14.04-desktop(带分区)安装步骤详解 Ubuntu14.04安装之后的一些配置 Ubuntukylin-14.04-desktop( 不带分区)安装步骤详解 Ubuntu11.10 带图形安装步骤详解 VMware里Ubuntukylin-1
阅读全文
摘要:不多说,直接上干货! 成功! Ubuntukylin-14.04-desktop( 不带分区)安装步骤详解 Ubuntukylin-14.04-desktop( 不带分区)安装步骤详解 Ubuntu14.04安装之后的一些配置 Ubuntu11.10 带图形安装步骤详解 Ubuntukylin-14
阅读全文