摘要:
1. 元组 映射是K/V对偶的集合,对偶是元组的最简单的形式,元组可以装着多个不同类型的值 1.1 特点 元组相当于一个特殊的数组,其长度和内容都可变,并且数组中可以装任何类型的数据,其主要用处就是存一些类型不同的数据,如定义一个方法,其要返回多个类型不同的值,如果在java中就需要定义一个bean 阅读全文
摘要:
具体见第三阶段scala-day01中的文档(scala编程基础 基础语法) 1. 函数式编程(https://www.cnblogs.com/wchukai/p/5651185.html): 将业务逻辑细化,抽象,封装成一个个功能函数,并借助语言自带的高阶函数api,将整个业务流程转化为函数之间的 阅读全文
摘要:
1. ZK的监控机制 1.1 监听数据的变化 (1)监听一次 public class ChangeDataWacher { public static void main(String[] args) throws Exception { // 连接并获取zk客户端的对象 ZooKeeper zk 阅读全文
摘要:
1. 小文件合并 HDFS中不适合存储大量的小文件,原因如下; 无论文件大小,namenode记录的元数据大小几乎是一致的(1KB的文件与120M的文件在namenode中的元数据都是一样的) namenode的内存有限,记录的元数据条数有限,集群的存储容量受限,所以HDFS不能无限添加datano 阅读全文
摘要:
1. MR程序在yarn上运行的基本流程 此篇博客可以看看(https://www.cnblogs.com/kocdaniel/p/11637888.html) (1)client提交作业申请 client向ResourceManager提交job申请 RM创建job任务,并根据申请内容返回相关的信 阅读全文
摘要:
0. 补充(查询源代码的操作) (1)ctrl+shift+t 查找某个类 (2)crtl+t查看类的继承结构 (3)ctrl+o 查看类中的方法 1. MR程序数据处理全流程 第一步:FileInputFormat找到指定路径或文件夹(若是文件夹且有多个文件,会开启多个map任务,默认是一个文件用 阅读全文
摘要:
1. 案例一: 流量案例 字段一:手机号 字段二:url 字段三:上行流量 字段四:下行流量 1.1 统计每个人的访问量的总流量 思路:以电话这个字段聚合,即以key聚合 map阶段代码如下 public class ViewsMapper extends Mapper<LongWritable, 阅读全文
摘要:
1. HDFS的checkpoint机制 namenode的主要职责是记录用户存储数据的数据元信息(元数据),元数据即为存储在HDFS分布式存储系统上的数据的详细记录信息,其包括数据块,文件存储位置,块的大小,副本的个数文件的权限等等 记录元数据的形式有两种 (1)元数据存储在内存中:内存对象(机器 阅读全文
摘要:
1.补充配置 1.1 Hadoop的环境变量的配置 vi /etc/profile $PATH:表示取出前面的环境变量的配置,此处前面有java环境变量的配置,所以不需要再配置,若没有则需要 “:” 表示连接符号,功能和windows中的%一样 export: 类似public的作用,扩大作用范围的 阅读全文
摘要:
1. 序列化 1.1 概念 数据存储在程序中有两种: (1)存储在内存中,称为内存对象或是内存数据,其为临时的数据 (2)数据是存储在磁盘中,其为永久数据 序列化:将数据结构或对象转换成二进制串的过程 User对象 转换规则 > 10101010 (本质理解:序列化就是数据结构或对象如何转换成二进制 阅读全文