09 2021 档案

摘要:点击到map package com.example.myapplication2;import android.annotation.SuppressLint;import android.app.Activity;import android.os.Bundle;import android.w 阅读全文
posted @ 2021-09-29 23:25 大风吹爱护 阅读(70) 评论(0) 推荐(0) 编辑
摘要:1、导入到hive 2、数据清洗 3、数据处理 (1)机场: (2)代理商: (3)代理商活跃度 (4)销售利润 4、导入到Mysql 阅读全文
posted @ 2021-09-28 23:16 大风吹爱护 阅读(62) 评论(0) 推荐(0) 编辑
摘要:Hive Metadata即Hive的元数据。 包含用Hive创建的database、table、表的位置、类型、属性,字段顺序类型等元信息。 元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等。 Metastore即元数据服务。Metastore服务的作用是管理met 阅读全文
posted @ 2021-09-27 23:51 大风吹爱护 阅读(45) 评论(0) 推荐(0) 编辑
摘要:1、Hive虽然有RDBMS数据库的外表,包括数据模型、SQL语法都十分相似,但应用场景却完全不同。 2、Hive只适合用来做海量数据的离线分析。Hive的定位是数据仓库,面向分析的OLAP系统。 3、Hive不是大型数据库,也不是要取代MySQL承担业务数据处理。 阅读全文
posted @ 2021-09-24 23:52 大风吹爱护 阅读(33) 评论(0) 推荐(0) 编辑
摘要:RecordReader: 记录阅读器将数据分解为键/值对,以供映射器输入。 Partitioner: 分区键空间。 <p><code>Partitioner</code>控制中间映射输出键的分区。键(或键的子集)用于派生 分区,通常通过哈希函数。分区的总数与任务的reduce任务的总数相同。因此, 阅读全文
posted @ 2021-09-22 23:24 大风吹爱护 阅读(26) 评论(0) 推荐(0) 编辑
摘要:Hadoop HDFS: 分布式存储系统,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。 yarn: 可以理解为MapReduce的协调机制,本质就是Hadoop的处理分析机制,分为ResourceManager NodeManage 阅读全文
posted @ 2021-09-22 00:06 大风吹爱护 阅读(56) 评论(0) 推荐(0) 编辑
摘要:reducer主要有三个阶段 1.Shuffle(一部分): Reducer通过网络使用HTTP从每个mapper复制排序的输出(K2V2)。 2.Sort: 框架合并按键对reducer输入进行排序(因为不同的mapper可能输出相同的键)。 shuffle和sort阶段是同时发生的,也就是说,在 阅读全文
posted @ 2021-09-21 09:12 大风吹爱护 阅读(73) 评论(0) 推荐(0) 编辑
摘要:读书笔记: 开篇是诸多大佬对这本书的评价,对邹欣老师和这部著作赞赏有加,也使我兴趣大增。 第一章介绍了软件工程的概念、理论、知识点和软件工程和计算机科学的关系。具体来说是让我认识到了以下几个概念:源代码管理,配置管理,质量保证,软件测试,需求分析。程序理解,软件维护,服务运营,合称为软件的生命周期。 阅读全文
posted @ 2021-09-20 16:09 大风吹爱护 阅读(29) 评论(0) 推荐(0) 编辑
摘要:减少复制因子 在副本数大于设定的副本数时进行 当文件的复制因子减少时,NameNode选择可以删除的多余副本。下一个Heartbeat将此信息传输到DataNode。 然后,DataNode删除相应的块,并在群集中显示相应的可用空间。 再一次,setReplication API调用完成与集群中可用 阅读全文
posted @ 2021-09-16 19:12 大风吹爱护 阅读(81) 评论(0) 推荐(0) 编辑
摘要:datanode启动后 扫描本地块的信息 汇报给namenode 心跳机制 datanode每隔三秒汇报给namenode 检查点(运行时主要由secondarynamenode完成) 它从磁盘读取FsImage和EditLog,将EditLog中的所有事务应用到FsImage的内存中表示,并将此新 阅读全文
posted @ 2021-09-15 23:22 大风吹爱护 阅读(45) 评论(0) 推荐(0) 编辑
摘要:hdfs的设计理念 硬件故障是常态而非例外。HDFS实例可能包含数百或数千台服务器计算机,每台计算机都存储文件系统数据的一部分。事实上,存在大量组件并且每个组件具有非平凡的故障概率意味着HDFS的某些组件始终不起作用。 因此,检测故障并从中快速自动恢复是HDFS的核心架构目标。 在HDFS上运行的应 阅读全文
posted @ 2021-09-14 23:21 大风吹爱护 阅读(93) 评论(0) 推荐(0) 编辑
摘要:学好hadoop不是一朝一夕的事情此文档简略仅适用于初入门做了解使用,若想深入学习请使用《hadoop权威指南》 hadoop模块: Hadoop Common:支持其他Hadoop模块的常用实用程序。 Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问 阅读全文
posted @ 2021-09-13 10:18 大风吹爱护 阅读(31) 评论(0) 推荐(0) 编辑
摘要:设计原则 ​设计原则是在进行软件系统设计时所要遵循的一些经验准则,应用该准则的目的通常是为了避免某些经常出现的设计缺陷。 单一职责原则 (Single responsibility principle) 不要存在多于一个导致类变更的原因。对类来说的,即一个类应该只负责一项职责。 开闭原则(Open 阅读全文
posted @ 2021-09-09 12:54 大风吹爱护 阅读(40) 评论(0) 推荐(0) 编辑
摘要:hadoop总结1 - - MapReduce和HDFSHadoop是一个分布式的集群环境,它不需要我们深入了解许多分布式平台的细节,直接帮我们在上面搭建好了一个平台。Hadoop的核心是HDFS和MapReduce。当然,Hive, hbase, storm, spark等技术,也都是基于hado 阅读全文
posted @ 2021-09-08 23:04 大风吹爱护 阅读(37) 评论(0) 推荐(0) 编辑
摘要:一、引言首先说明一下,本文的安装教程仅是针对个人的操作经验所写的。可能有些同学安装的时候觉得跟他的不一样,那可能是由于版本不一样所导致的。另外本次分享是基于已经安装了java及配置好了环境。本机的配置环境如下:Hadoop(3.1.1)Ubuntu Linux(64位系统) 二、安装ssh服务ubu 阅读全文
posted @ 2021-09-06 23:09 大风吹爱护 阅读(82) 评论(0) 推荐(0) 编辑
摘要:机器学习/R R: 用于统计分析、绘图的语言和操作环境,目前有Hadoop-R mahout: 提供可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘等,且可通过Hadoop扩展到云中。 四、storm Storm: 分布式,容错的实时流式计算系统,可以用作实时分析,在线机器 阅读全文
posted @ 2021-09-04 23:01 大风吹爱护 阅读(41) 评论(0) 推荐(0) 编辑
摘要:安装hadoop 在 hadoop102 安装 HadoopHadoop 下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/ 1 ) 用 XShell 文件传输 工具将 hadoop-3.1.3.tar.gz 导入到 op 阅读全文
posted @ 2021-09-03 23:07 大风吹爱护 阅读(23) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示