2018 年 6月随笔档案 - 瓶子xf

广播变量与累加器

摘要：Spark性能调优之——在实际项目中广播大变量 Spark广播和累加器的使用 Spark自定义累加器的使用阅读全文

posted @ 2018-06-19 08:30 瓶子xf 阅读(100) 评论(0) 推荐(0) 编辑

sprak应用执行过程

摘要：阅读全文

posted @ 2018-06-12 08:23 瓶子xf 阅读(177) 评论(0) 推荐(0) 编辑

spark内核架构深度剖析

摘要：阅读全文

posted @ 2018-06-12 08:22 瓶子xf 阅读(97) 评论(0) 推荐(0) 编辑

Spark内核架构核心组件.txt

摘要：1、Application2、spark-submit3、Driver4、SparkContext5、Master6、Worker7、Executor8、Job9、DAGScheduler10、TaskScheduler11、ShuffleMapTask and ResultTask 阅读全文

posted @ 2018-06-12 08:21 瓶子xf 阅读(123) 评论(0) 推荐(0) 编辑

scala实现二分查找

摘要：package day04.scala/** * Description: 使用二分查找法，查找元素为“70”的索引值 java */object Demo2SecondaySearh { def main(args: Array[String]) { 30 //使用二分查找法前提:有序集合 val 阅读全文

posted @ 2018-06-08 20:32 瓶子xf 阅读(456) 评论(0) 推荐(0) 编辑

spark共享变量---广播变量和累加变量

摘要：从三个方面来分析：1.什么时候使用，2.原理是什么3.性能上有什么优化累加变量：--(自定义累加器很重要) 使用场景：累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数，如：统计日志中空行数、统计错误行数等；统计电商网站走一步到两步的人有多少，。。。。即步伐的计算；原理： task只能阅读全文

posted @ 2018-06-08 19:59 瓶子xf 阅读(246) 评论(0) 推荐(0) 编辑

Hadoop安全模式的理解

摘要：Hadoop安全模式的理解阅读全文

posted @ 2018-06-07 07:38 瓶子xf 阅读(77) 评论(0) 推荐(0) 编辑

Hadoop集群管理之fsimage和edits工作机制

摘要：客户端对hdfs进行写文件时会首先被记录在edits文件中。 edits修改时元数据也会更新。每次hdfs更新时edits先更新后客户端才会看到最新信息。 fsimage:是namenode中关于元数据的镜像，一般称为检查点。一般开始时对namenode的操作都放在edits中，为什么不放在fs 阅读全文

posted @ 2018-06-07 07:06 瓶子xf 阅读(286) 评论(0) 推荐(0) 编辑

什么是RDD

摘要：RDD（Resilient Distributed Dataset）叫做弹性分布式数据集RDD，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。 RDD包含很多分区，由一系列分区构成，一个分区构成一阅读全文

posted @ 2018-06-06 18:36 瓶子xf 阅读(1667) 评论(0) 推荐(0) 编辑

CentOS6.5和7区别是什么？选择CentOS7版本怎么样？

摘要：CentOS6.5和7区别是什么？选择CentOS7版本怎么样？ centos7与centos6区别阅读全文

posted @ 2018-06-05 10:03 瓶子xf 阅读(1246) 评论(0) 推荐(0) 编辑

mapreduce压缩

摘要：这是mr的一种优化策略，通过压缩编码对mapper或者reducer的输出进行压缩，以减少磁盘io，提高mr运行速度（但也相应增加了cpu运算负担）特性： 1.mr支持将map输出的结果或者reduce输出的结果进行压缩，以减少网络IO或最终输出数据的体积。 2.压缩特性使用得当能提高性能，但运用阅读全文

posted @ 2018-06-04 08:10 瓶子xf 阅读(108) 评论(0) 推荐(0) 编辑

她真的好美

摘要：22岁女孩惹何炅泪奔：当她脱下裙子，你才知道有多美阅读全文

posted @ 2018-06-03 23:30 瓶子xf 阅读(73) 评论(0) 推荐(0) 编辑

MapReduce的自制Writable分组输出及组内排序

摘要：MapReduce的自制Writable分组输出及组内排序阅读全文

posted @ 2018-06-03 17:50 瓶子xf 阅读(100) 评论(0) 推荐(0) 编辑

map端join和reduce端join的区别

摘要：MapReduce Join MapJoin和ReduceJoin区别及优化 maptask处理后写到本地，如果再到reduce，又涉及到网络的拷贝。 map端join最大优势，可以提前过滤不需要的数据。如对于20G左右的文件，可以用2个job来处理：一个mapreduce进行数据过滤，另一个阅读全文

posted @ 2018-06-03 13:45 瓶子xf 阅读(655) 评论(0) 推荐(0) 编辑

String.StartsWith 方法

摘要：确定此字符串实例的开头是否与指定的字符串匹配。阅读全文

posted @ 2018-06-03 12:36 瓶子xf 阅读(171) 评论(0) 推荐(0) 编辑

RPC和心跳机制

摘要：hadoop在节点间的内部通讯使用的是RPC，RPC协议把消息翻译成二进制字节流发送到远程节点，远程节点再通过反序列化把二进制流转成原始的信息。 namenode与datanode之间的通信，jobtracker与tasktracker之间的通信，都是通过“心跳”完成的，hadoop的心跳机制的底层阅读全文

posted @ 2018-06-03 11:01 瓶子xf 阅读(329) 评论(0) 推荐(0) 编辑

MAPREDUCE中的序列化

摘要：Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系。。。。），不便于在网络中高效传输；所以，hadoop自己开发了一套序列化机制（Writable），精简，高效阅读全文

posted @ 2018-06-03 10:57 瓶子xf 阅读(371) 评论(0) 推荐(0) 编辑

mapreduce的shuffle机制

摘要：1.1 概述： mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；(从map的输出到reduce的输入) shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；具体来说：就是将maptask输阅读全文

posted @ 2018-06-03 10:51 瓶子xf 阅读(255) 评论(0) 推荐(0) 编辑

hadoop三个配置文件的参数含义说明(转)

摘要：https://www.cnblogs.com/sunxucool/p/3957407.html 阅读全文

posted @ 2018-06-03 10:14 瓶子xf 阅读(88) 评论(0) 推荐(0) 编辑

环形缓冲区

摘要：https://blog.csdn.net/u013904227/article/details/51168398 阅读全文

posted @ 2018-06-03 10:13 瓶子xf 阅读(85) 评论(0) 推荐(0) 编辑

关于hadoop处理大量小文件情况的解决方法

摘要：https://www.cnblogs.com/lisi2016/p/6863929.html https://blog.csdn.net/sunnyyoona/article/details/53870077 阅读全文

posted @ 2018-06-02 20:23 瓶子xf 阅读(133) 评论(0) 推荐(0) 编辑

secondary namenode（同步元数据和日志）

摘要：https://www.cnblogs.com/juncaoit/p/7712436.html 阅读全文

posted @ 2018-06-02 20:16 瓶子xf 阅读(92) 评论(0) 推荐(0) 编辑

HDFS的特点和目标，不适合场景

摘要：HDFS的特点和目标： HDFS设计优点：（一）高可靠性：Hadoop按位存储和处理数据的能力值得人们信赖; （二）高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。（三）高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节阅读全文

posted @ 2018-06-02 20:13 瓶子xf 阅读(875) 评论(0) 推荐(0) 编辑

添加节点、删除节点的两种方式

摘要：添加节点、删除节点的两种方式：（1）一种是静态添加修改slaves文件，重启hadoop集群优点：改动少缺点：暴力需要停止服务应用环境：晚上或凌晨做不耽误使用检查：50070和8088端口检查(50070hdfs系统的web地址，8088yarn的外部端口)（2）一种是动态添加：修改slaves 阅读全文

posted @ 2018-06-02 19:53 瓶子xf 阅读(624) 评论(0) 推荐(0) 编辑

SSH免登陆要点

摘要：A要登录到B，则A把自己的公钥发送给B。涉及到RSA加密：非对称算法，即用一把公钥加密，就必须用一把对应的私钥解密；用私钥签名，就必须用公钥解签名。签名：为了身份的防篡改。加密：为了数据的安全性扩展：对称加密：aes,des:只有一把密钥。阅读全文

posted @ 2018-06-02 17:22 瓶子xf 阅读(105) 评论(0) 推荐(0) 编辑

scala偏函数小栗子

摘要：package cn.beicaiqm.scala.day04 /** * Created by Administrator on 2018/6/1. * 被包在花括号内没有match的一组case语句是一个偏函数， * 它是PartialFunction[-A, +B]的一个实例，A代表参 * 数类型，B代表返回类型 */ object Demo09PartialFunc... 阅读全文

posted @ 2018-06-02 15:53 瓶子xf 阅读(136) 评论(0) 推荐(0) 编辑

javaApi,mapreduce,awk,scala四种方式实现词频统计

摘要：awk方式实现词频统计： javaApi方式实现词频统计： mapreduce实现词频统计： scala方式实现词频统计：阅读全文

posted @ 2018-06-02 14:34 瓶子xf 阅读(408) 评论(0) 推荐(0) 编辑

Java中字符串中子串的查找共有四种方法(indexof())

摘要：indexOf 方法返回一个整数值，指出 String 对象内子字符串的开始位置。如果没有找到子字符串，则返回-1。如果 startindex 是负数，则 startindex 被当作零。如果它比最大的字符位置索引还大，则它被当作最大的可能索引。 Java中字符串中子串的查找共有四种方法，如下：1、阅读全文

posted @ 2018-06-02 09:31 瓶子xf 阅读(34482) 评论(0) 推荐(0) 编辑

idea常用快捷键

摘要：IntellijIDEA常用快捷键总结 https://blog.csdn.net/qq_17586821/article/details/52554731 阅读全文

posted @ 2018-06-02 09:03 瓶子xf 阅读(102) 评论(0) 推荐(0) 编辑

用hive或mr清洗app数据

摘要：1.项目背景从大量源数据中清洗出有效数据供后续程序使用。源数据参照log.txt文件 2.项目源数据说明 9841EF7BDBDF0AC9AF42AEBB4E4F8D4F Id 12 状态1 22 状态2 33 状态3 2013/1/1 23:13:58 时间您申请的验证码为541714，有效阅读全文

posted @ 2018-06-01 07:33 瓶子xf 阅读(292) 评论(0) 推荐(0) 编辑

瓶子xf

06 2018 档案

公告

搜索

常用链接

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论