06 2018 档案
摘要:Spark性能调优之——在实际项目中广播大变量 Spark广播和累加器的使用 Spark自定义累加器的使用
阅读全文
摘要:1、Application2、spark-submit3、Driver4、SparkContext5、Master6、Worker7、Executor8、Job9、DAGScheduler10、TaskScheduler11、ShuffleMapTask and ResultTask
阅读全文
摘要:package day04.scala/** * Description: 使用二分查找法,查找元素为“70”的索引值 java */object Demo2SecondaySearh { def main(args: Array[String]) { 30 //使用二分查找法前提:有序集合 val
阅读全文
摘要:从三个方面来分析:1.什么时候使用,2.原理是什么3.性能上有什么优化 累加变量:--(自定义累加器很重要) 使用场景:累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数,如:统计日志中空行数、统计错误行数等;统计电商网站走一步到两步的人有多少,。。。。即步伐的计算; 原理: task只能
阅读全文
摘要:客户端对hdfs进行写文件时会首先被记录在edits文件中。 edits修改时元数据也会更新。 每次hdfs更新时edits先更新后客户端才会看到最新信息。 fsimage:是namenode中关于元数据的镜像,一般称为检查点。 一般开始时对namenode的操作都放在edits中,为什么不放在fs
阅读全文
摘要:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集RDD,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。 RDD包含很多分区,由一系列分区构成,一个分区构成一
阅读全文
摘要:CentOS6.5和7区别是什么?选择CentOS7版本怎么样? centos7与centos6区别
阅读全文
摘要:这是mr的一种优化策略,通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘io,提高mr运行速度(但也相应增加了cpu运算负担) 特性: 1.mr支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积。 2.压缩特性使用得当能提高性能,但运用
阅读全文
摘要:MapReduce的自制Writable分组输出及组内排序
阅读全文
摘要:MapReduce Join MapJoin和ReduceJoin区别及优化 maptask处理后写到本地,如果再到reduce,又涉及到网络的拷贝。 map端join最大优势,可以提前过滤不需要的数据。 如对于20G左右的文件,可以用2个job来处理: 一个mapreduce进行数据过滤, 另一个
阅读全文
摘要:确定此字符串实例的开头是否与指定的字符串匹配。
阅读全文
摘要:hadoop在节点间的内部通讯使用的是RPC,RPC协议把消息翻译成二进制字节流发送到远程节点,远程节点再通过反序列化把二进制流转成原始的信息。 namenode与datanode之间的通信,jobtracker与tasktracker之间的通信,都是通过“心跳”完成的,hadoop的心跳机制的底层
阅读全文
摘要:Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系。。。。),不便于在网络中高效传输; 所以,hadoop自己开发了一套序列化机制(Writable),精简,高效
阅读全文
摘要:1.1 概述: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;(从map的输出到reduce的输入) shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输
阅读全文
摘要:https://www.cnblogs.com/sunxucool/p/3957407.html
阅读全文
摘要:https://blog.csdn.net/u013904227/article/details/51168398
阅读全文
摘要:https://www.cnblogs.com/lisi2016/p/6863929.html https://blog.csdn.net/sunnyyoona/article/details/53870077
阅读全文
摘要:https://www.cnblogs.com/juncaoit/p/7712436.html
阅读全文
摘要:HDFS的特点和目标: HDFS设计优点: (一)高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖; (二)高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 (三)高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节
阅读全文
摘要:添加节点、删除节点的两种方式:(1)一种是静态添加修改slaves文件,重启hadoop集群优点:改动少缺点:暴力 需要停止服务应用环境:晚上或凌晨做 不耽误使用检查:50070和8088端口检查(50070hdfs系统的web地址,8088yarn的外部端口)(2)一种是动态添加:修改slaves
阅读全文
摘要:A要登录到B,则A把自己的公钥发送给B。 涉及到RSA加密:非对称算法,即用一把公钥加密,就必须用一把对应的私钥解密;用私钥签名,就必须用公钥解签名。 签名:为了身份的防篡改。 加密:为了数据的安全性 扩展: 对称加密:aes,des:只有一把密钥。
阅读全文
摘要:package cn.beicaiqm.scala.day04 /** * Created by Administrator on 2018/6/1. * 被包在花括号内没有match的一组case语句是一个偏函数, * 它是PartialFunction[-A, +B]的一个实例,A代表参 * 数类型,B代表返回类型 */ object Demo09PartialFunc...
阅读全文
摘要:awk方式实现词频统计: javaApi方式实现词频统计: mapreduce实现词频统计: scala方式实现词频统计:
阅读全文
摘要:indexOf 方法返回一个整数值,指出 String 对象内子字符串的开始位置。如果没有找到子字符串,则返回-1。如果 startindex 是负数,则 startindex 被当作零。如果它比最大的字符位置索引还大,则它被当作最大的可能索引。 Java中字符串中子串的查找共有四种方法,如下:1、
阅读全文
摘要:IntellijIDEA常用快捷键总结 https://blog.csdn.net/qq_17586821/article/details/52554731
阅读全文
摘要:1.项目背景 从大量源数据中清洗出有效数据供后续程序使用。 源数据参照log.txt文件 2.项目源数据说明 9841EF7BDBDF0AC9AF42AEBB4E4F8D4F Id 12 状态1 22 状态2 33 状态3 2013/1/1 23:13:58 时间 您申请的验证码为541714,有效
阅读全文