一y样

2019年11月21日

大数据学习day14-----第三阶段-----scala02------1. 元组 2.类、对象、继承、特质 3.函数（必须掌握）

摘要： 1. 元组映射是K/V对偶的集合，对偶是元组的最简单的形式，元组可以装着多个不同类型的值 1.1 特点元组相当于一个特殊的数组，其长度和内容都可变，并且数组中可以装任何类型的数据，其主要用处就是存一些类型不同的数据，如定义一个方法，其要返回多个类型不同的值，如果在java中就需要定义一个bean 阅读全文

posted @ 2019-11-21 00:03 一y样阅读(223) 评论(0) 推荐(0) 编辑

2019年11月19日

大数据学习day13------第三阶段----scala01-----函数式编程。scala以及IDEA的安装，变量的定义，条件表达式，for循环（守卫模式，推导式，可变参数以及三种遍历方式），方法定义，数组以及集合（可变和非可变），数组中常用的方法

摘要：具体见第三阶段scala-day01中的文档（scala编程基础基础语法） 1. 函数式编程（https://www.cnblogs.com/wchukai/p/5651185.html）：将业务逻辑细化，抽象，封装成一个个功能函数，并借助语言自带的高阶函数api，将整个业务流程转化为函数之间的阅读全文

posted @ 2019-11-19 21:15 一y样阅读(151) 评论(0) 推荐(0) 编辑

2019年11月15日

大数据学习day11------hbase_day01----1. zk的监控机制，2动态感知服务上下线案例 3.HDFS-HA的高可用基本的工作原理 4. HDFS-HA的配置详解 5. HBASE（简介，安装，shell客户端，java客户端）

摘要： 1. ZK的监控机制 1.1 监听数据的变化（1）监听一次 public class ChangeDataWacher { public static void main(String[] args) throws Exception { // 连接并获取zk客户端的对象 ZooKeeper zk 阅读全文

posted @ 2019-11-15 10:22 一y样阅读(184) 评论(0) 推荐(0) 编辑

2019年11月13日

大数据学习day10-----zookeeper--------1.小文件合并，2 输入和输出 3 多路径输出 4.zookeeper(选举机制，安装，zk的shell客户端、java客户端)

摘要： 1. 小文件合并 HDFS中不适合存储大量的小文件，原因如下; 无论文件大小，namenode记录的元数据大小几乎是一致的（1KB的文件与120M的文件在namenode中的元数据都是一样的） namenode的内存有限，记录的元数据条数有限，集群的存储容量受限，所以HDFS不能无限添加datano 阅读全文

posted @ 2019-11-13 21:38 一y样阅读(237) 评论(0) 推荐(0) 编辑

2019年11月11日

大数据学习day09----hadoop--day06-------1.MR程序在yarn上运行的基本流程 2. 数据倾斜解决方案 3.高效topN（指定分区器，分组规则，自定义排序规则）

摘要： 1. MR程序在yarn上运行的基本流程此篇博客可以看看（https://www.cnblogs.com/kocdaniel/p/11637888.html）（1）client提交作业申请 client向ResourceManager提交job申请 RM创建job任务，并根据申请内容返回相关的信阅读全文

posted @ 2019-11-11 17:54 一y样阅读(287) 评论(0) 推荐(0) 编辑

2019年11月9日

大数据学习-----day08-----hadoop05-------0.补充（查询源代码的操作）1.MR程序数据处理全流程 2.yarn 3. merger案例（小文件合并）4.数据倾斜 5join案例

摘要： 0. 补充（查询源代码的操作）（1）ctrl+shift+t 查找某个类（2）crtl+t查看类的继承结构（3）ctrl+o 查看类中的方法 1. MR程序数据处理全流程第一步：FileInputFormat找到指定路径或文件夹（若是文件夹且有多个文件，会开启多个map任务，默认是一个文件用阅读全文

posted @ 2019-11-09 17:09 一y样阅读(258) 评论(0) 推荐(0) 编辑

2019年11月7日

大数据学习day7------hadoop04----1 流量案例 2 电影案例(统计每部电影的均分，统计每个人的均分，统计电影的评论次数，***统计每部电影评分最高的N条记录(Integer.max)，统计评论次数最多的n部电影（全局排序）) 3 line线段重叠次数案例 4.索引案例

摘要： 1. 案例一：流量案例字段一：手机号字段二：url 字段三：上行流量字段四：下行流量 1.1 统计每个人的访问量的总流量思路：以电话这个字段聚合，即以key聚合 map阶段代码如下 public class ViewsMapper extends Mapper<LongWritable, 阅读全文

posted @ 2019-11-07 15:07 一y样阅读(546) 评论(0) 推荐(0) 编辑

2019年11月5日

大数据学习-----day06----hadoop03-------1. hdfs的checkpoint机制（有一点点疑问）; 2 MapReduce

摘要： 1. HDFS的checkpoint机制 namenode的主要职责是记录用户存储数据的数据元信息（元数据），元数据即为存储在HDFS分布式存储系统上的数据的详细记录信息，其包括数据块，文件存储位置，块的大小，副本的个数文件的权限等等记录元数据的形式有两种（1）元数据存储在内存中：内存对象（机器阅读全文

posted @ 2019-11-05 15:27 一y样阅读(481) 评论(0) 推荐(0) 编辑

2019年11月3日

大数据学习---day05----hadoop02--------1补充配置（hadoop的环境变量配置，修改shell客户端默认操作的文件系统为hdfs系统，集群的批量启动（hdfs-site.xml中各参数的详解），查看那么node和datanode的日志信息，namenode和datanode的交互过程）2HDFS的客户端操作（上传，下载等等）

摘要： 1.补充配置 1.1 Hadoop的环境变量的配置 vi /etc/profile $PATH：表示取出前面的环境变量的配置，此处前面有java环境变量的配置，所以不需要再配置，若没有则需要 “:” 表示连接符号，功能和windows中的%一样 export: 类似public的作用，扩大作用范围的阅读全文

posted @ 2019-11-03 12:07 一y样阅读(453) 评论(0) 推荐(0) 编辑

2019年10月31日

大数据学习----day04------hadoop01------1. 序列化；2. 迭代器；3服务的基本概念;4.Hadoop; 5, HDFS

摘要： 1. 序列化 1.1 概念数据存储在程序中有两种：（1）存储在内存中，称为内存对象或是内存数据，其为临时的数据（2）数据是存储在磁盘中，其为永久数据序列化：将数据结构或对象转换成二进制串的过程 User对象转换规则 > 10101010 （本质理解：序列化就是数据结构或对象如何转换成二进制阅读全文

posted @ 2019-10-31 14:22 一y样阅读(200) 评论(0) 推荐(0) 编辑

公告