01 2020 档案
摘要:Hive自定义函数(UDF) 1、UDF(User Defined Function)用户自定义函数2、自定UDF函数的步骤 -》创建maven工程,在pom.xml文件添加hive依赖 <dependency> <groupId>org.apache.hive</groupId> <artifac
阅读全文
摘要:定义: 防火墙技术是通过有机结合各类用于安全管理与筛炫的软件和硬件设备。帮助计算机网络与内外网之间构成一道相对绝对保护的屏障。用于保护用户的资历老和信息安全的一种技术。 防火墙是两个网络之间一系列部件的集合防火墙是网络唯一的入口,防火墙是一个限制器,也可以是说是一个分析器。 功能: 及时发现处理计算
阅读全文
摘要:查看支持哪些linux参数 bin/hive -help
阅读全文
摘要:kfaka安装方式: 单机模式 伪分布 完全分布式 搭建网址:http://kajka.apache.org/082/documentation.html#quickstart
阅读全文
摘要:kafaka初识 产生的背景: 问题: 两个模块A、B .A生产消息,B消费消息,当A的速度 大于B的速度,A模块产生的数据的阻塞,有剩余,对数据得处理有一定的影响。 解决方案: 新加模块C 。a发数据c,C将数据发给B。 速度 定义: 分布式的消息订阅系统。 优点:高可扩展,高容错,分布式。 缺点
阅读全文
摘要:Metastore : 指数据库中的元数据, 管理元数据的服务。 hive管理元数据的数据库一deby ..我们不用他的主要原因是他只有一个客户端可以访问元数据。 三种模式: 内嵌模式:默认的情况下是内嵌模式,数据库使用的是derby。 本地模式: 生产环境使用的。就是自己配置mysql的数据库。
阅读全文
摘要:登陆 bin/hive create database hadoop1 //创建数据库 show databases; //显示所有创建的数据库 use hadoop1 //使用之前建立的数据库 create table stu_info(.//创建表 id int, name string ) r
阅读全文
摘要:hive环境的搭建 必须要有hadoop 配置hive 重命名:mv bingsf bin 创建/user/hive/warehouse bin/hdfs dfs -mkdir /tmp bin/hdfs dfs -mkdir -p /user/hive/warehouse 为上边的两个目录添加用户
阅读全文
摘要:Hive 简单说明 他没有很多的架构来讲,他就是一个简单的工具 数据仓库软件,分布式的读,i写管理大数据 访问方式 :JDBC(代码),命令行工具(常用) FaceBook 数据太大,需要大数据工程师,办法:用sql,sql转化为mapreduce程序,自动提交个yarn。 关系型数据库和hive对
阅读全文
摘要:什么是MAPREDUCE : MapReduce 八个字的核心的思想分而治之, Mapreduce简单的工作原理: mapredue 有maptask、reducetask组成 一个切片一个mapreduce, reduceTask 的默认是一个,可以设置多个 设置过程job.setNumReduc
阅读全文
摘要:启动的命令:sbinhadoop-daemon.sh start secondarynamenode 镜像文件所在的位置:工作目录/name/curent/fsimage 操作日志操作日志:目录/name/edits_inprogress_000000000001 工作原理图:
阅读全文
摘要:HDFS 读写的入口是哪个节点:namenode 。 HDFS 数据读的流程 判断成功标准:第一台节点成功,认为所有的都成 HDFS 写数据的流程 du
阅读全文
摘要:hadoop 安全模式 时间:每次在启动namenode的时候,都会进入安全模式。 手动启动安全模式 工作:检查块的个数。是否丢失。完成自动退出。 特性:我们没有感觉。 命令: 查看:bin/hadoop dfsadmin -safemode get 进入: bin/hadoop dfsadmin
阅读全文
摘要:Hadoop环境的搭建 1. 本地模式 开发人员调试环境, 他不会按HDFS存数据,会将文件存储到本地的文件系统中。 2. 伪分布式模式 开发调试环境和学习环境 需要部署的是两个文件 core-site.html中添加 <configuration> <property> <!--指定Hadoop的
阅读全文
摘要:Hadoop 发展历史 Apache Nutch 网页抓取互据,数据量达到瓶颈, Google 发表论文 Google FileSystem Apache 根据论文解决问题 Google 发表论文MapReduce Apache 根据论文,写了一套Mapreduce系统,应用到自己的项目 Apach
阅读全文
摘要:离线计算 计算的速度比较慢 计算的数据量大 需要的技术Hadoop、HIve(离线分析,他的本质就是hadoop)、sqoop(协作框架) Hbase(数据库,非关系型数据库,分布式数据库)Flume(写作框架,收集日志数据) CM (图形化管理器,监控集群资源状态,部署集群。) 实时计算 计算的数
阅读全文
摘要:数据块 每个磁盘都有默认数据块大小,这个数据块就是磁盘存取得最小得单位。 磁盘块得大小一般为512字节 数据块得大小小于512字节,他得空间也会被占用。 HDSF 数据块 HDFS也有数据块得大小,大小以前为64M,当前得大小为128M 。 如果该块没有存满,不会占用整个数据块得空间。 HDFS 块
阅读全文