随笔分类 - ##云计算与大数据
摘要:FusionInsight大数据开发 Flink应用开发
阅读全文
摘要:Hbase的配置与使用 设置环境变量 vim /etc/profile export HBASE_HOME=/usr/local/hbase export PATH=$PATH:/usr/local/hbase/bin source /etc/profile 设置Hbase的配置文件 cd /usr
阅读全文
摘要:大数据Hadoop的安装与使用 链接:https://pan.baidu.com/s/12vFNRLPJ9zGA2LTJuIpxJQ 提取码:83fb Vmware的安装:https://www.cnblogs.com/cainiao-chuanqi/p/13130663.html 虚拟机的导入:h
阅读全文
摘要:Ubuntu kylin优麒麟下配置Hive环境 Hive简介 什么是Hivehive是基于Hadoop的一个数据仓储工具,可以将结构化的数据文件映射为一张数据表,并提供SQL查询功能,可以将SQL语句转化为MapReduce任务进行执行。hive是基于Hadoop的一个数据仓储工具,可以将结构化的
阅读全文
摘要:Ubuntu kylin优麒麟下配置Hadoop环境 查看JDK目录 cd /usr/lib/jvm/java-8-openjdk-amd64 查看Hadoop目录 cd /usr/local/hadoop 查看IP地址 ifconfig ssh服务开启(如果没有开启) Linux系统的ssh要打开
阅读全文
摘要:Ubuntu kylin优麒麟root用户与静态网络设置 优麒麟 (Ubuntu Kylin)是由麒麟软件有限公司和CCN开源软件创新联合实验室主导开发的全球开源项目,其宗旨是通过研发用户友好的桌面环境以及特定需求的应用软件; 优麒麟操作系统是 Ubuntu 官方衍生版,得到来自Debian、Ubu
阅读全文
摘要:Hadoop环境搭建 hadoo和jdk的下载问题:如果是下载到windows上,需要移动到虚拟机上。只需直接拖拽就可以完成文件的移动。如果没能拖拽成功,则需要使用远程连接的软件来完成文件的上传,这里推荐使用MobaXterm的安装和使用:https://www.cnblogs.com/cainia
阅读全文
摘要:大数据知识梳理(Hadoop、HDFS)(更新中。。。) 第1讲 大数据概述1.1 大数据时代1.2 大数据概念和影响1.3 大数据的应用1.4 大数据的关键技术1.5 大数据与云计算、物联网 第2讲 大数据处理架构Hadoop2.1 概述2.2 Hadoop项目结构2.3 Hadoop的安装与使用
阅读全文
摘要:大数据知识梳理(整理中。。。) 一、大数据概述 大数据的特征(4V): 1、Volume,数据量大 2、Variety,数据类型多 大数据由结构化和非结构化数据组成: 10%的结构化数据,存储在数据库中; 90%的非结构化数据,与人类信息密切相关。 3、Velocity,处理速度快 4、Value,
阅读全文
摘要:大数据知识梳理(整理中。。。) 数据化浪潮 第一次 pc 第二次 移动 第三次 大数据 物联网 促进 价格 数据的产量 (存储 不舍得删 之前 每年删一次) 摩尔定律 大数据的时代 第一阶段 沃尔玛 数据库 商店的记录萌芽 第二阶段 博客 微博 :有限的数据 发展 第三阶段 感知系统的阶段 物联网的
阅读全文
摘要:因为Hadoop中关于文件操作类基本上都在“org.apache.hadoop.fs”包中,这些API的主要作用主要体现在以下操作上:打开文件、读写文件、删除文件。并且,Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是一个抽象类,只能通过get方法得到。 下面,笔者就逐一的对
阅读全文
摘要:解释一下什么是网盘与云盘 网盘 网盘:又称网络U盘、网络硬盘,是由互联网公司推出的在线存储服务,服务器机房为用户划分一定的磁盘空间,为用户免费或收费提供文件的存储、访问、备份、共享等文件管理等功能,并且拥有高级的世界各地的容灾备份。用户可以把网盘看成一个放在网络上的硬盘或U盘,不管你是在家中、单位或
阅读全文
摘要:大数据各个组件对外接口类型 组件名 安全模式支持的接口类型 普通模式支持的接口类型 Elasticsearch JAVA、REST JAVA、REST Flink CLI、JAVA、Scala、REST CLI、JAVA、Scala、REST Flume JAVA JAVA GraphBase CL
阅读全文
摘要:FusionInsight HD组件介绍 FusionInsight系统的整体逻辑架构图如下所示: FusionInsight HD 对开源组件进行封装和增强,对外提供稳定的大容量的数据存储、查询和分析能力。 各自组件提供功能如下: Manager:作为运维系统,为FusionInsight HD提
阅读全文
摘要:Hive与HBase的区别与联系 二者区别 Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。 Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。hive需要用到hdfs存储文件,
阅读全文
摘要:介绍一下什么是“云计算” 云计算:把物理资源以服务的方式提供给用户使用。 现阶段广为接受的是美国国家标准与技术研究院(NIST)定义: 云计算,是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可以配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能
阅读全文
摘要:RAID(独立磁盘冗余阵列) 在大数据技术出现之前,人们就需要面对这些关于存储的问题,对应的解决方案就是RAID技术。 RAID 等级 RAID0 RAID1 RAID3 RAID5 RAID6 RAID10 别名 条带 镜像 专用奇偶校验条带 分布奇偶校验条带 双重奇偶校验条带 镜像加条带 容错性
阅读全文
摘要:Map Reduce和YARN技术原理 学习目标 熟悉MapReduce和YARN是什么 掌握MapReduce使用的场景及其原理 掌握MapReduce和YARN功能与架构 熟悉YARN的新特性 MapReduce的概述 MapReduce基于Google发布的MapReduce论文设计开发,用于
阅读全文
摘要:HDFS分布式文件系统 文件系统的基本概述 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易。 文件名:在文件系统中,文件名是用于定位存储位置。 元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等。 数据块(Bloc
阅读全文
摘要:HDFS 其他命令 HDFS支持fsck命令用以检查各种不一致。fsck用以报告各种文件问题,如 block丢失或缺少block等。fack 命令用法如下: hdfs fsck <path> [-move | -delete | -openforwrite] [-files [-blocks [-l
阅读全文