2020 年 1月随笔档案 - dousil

hive 操作

摘要：Hive自定义函数（UDF） 1、UDF（User Defined Function）用户自定义函数2、自定UDF函数的步骤 -》创建maven工程，在pom.xml文件添加hive依赖 <dependency> <groupId>org.apache.hive</groupId> <artifac 阅读全文

posted @ 2020-01-17 16:20 dousil 阅读(179) 评论(0) 推荐(0) 编辑

网络防火墙

摘要：定义：防火墙技术是通过有机结合各类用于安全管理与筛炫的软件和硬件设备。帮助计算机网络与内外网之间构成一道相对绝对保护的屏障。用于保护用户的资历老和信息安全的一种技术。防火墙是两个网络之间一系列部件的集合防火墙是网络唯一的入口，防火墙是一个限制器，也可以是说是一个分析器。功能：及时发现处理计算阅读全文

posted @ 2020-01-17 15:24 dousil 阅读(444) 评论(0) 推荐(0) 编辑

hive 常用的shell参数

摘要：查看支持哪些linux参数 bin/hive -help 阅读全文

posted @ 2020-01-17 11:11 dousil 阅读(194) 评论(0) 推荐(0) 编辑

kafka搭建

摘要：kfaka安装方式：单机模式伪分布完全分布式搭建网址：http://kajka.apache.org/082/documentation.html#quickstart 阅读全文

posted @ 2020-01-16 15:53 dousil 阅读(99) 评论(0) 推荐(0) 编辑

kafaka学习笔记

摘要：kafaka初识产生的背景：问题：两个模块A、B .A生产消息，B消费消息，当A的速度大于B的速度，A模块产生的数据的阻塞，有剩余，对数据得处理有一定的影响。解决方案：新加模块C 。a发数据c,C将数据发给B。速度定义：分布式的消息订阅系统。优点：高可扩展，高容错，分布式。缺点阅读全文

posted @ 2020-01-16 15:33 dousil 阅读(589) 评论(0) 推荐(0) 编辑

metastore 简单说明

摘要：Metastore ：指数据库中的元数据，管理元数据的服务。 hive管理元数据的数据库一deby ..我们不用他的主要原因是他只有一个客户端可以访问元数据。三种模式：内嵌模式：默认的情况下是内嵌模式，数据库使用的是derby。本地模式: 生产环境使用的。就是自己配置mysql的数据库。阅读全文

posted @ 2020-01-16 09:32 dousil 阅读(2501) 评论(0) 推荐(0) 编辑

hive体系结构

摘要：阅读全文

posted @ 2020-01-16 08:57 dousil 阅读(86) 评论(0) 推荐(0) 编辑

初步使用hive

摘要：登陆 bin/hive create database hadoop1 //创建数据库 show databases; //显示所有创建的数据库 use hadoop1 //使用之前建立的数据库 create table stu_info(.//创建表 id int, name string ) r 阅读全文

posted @ 2020-01-16 08:48 dousil 阅读(258) 评论(0) 推荐(0) 编辑

HIVE 环境的安装和部署

摘要：hive环境的搭建必须要有hadoop 配置hive 重命名：mv bingsf bin 创建/user/hive/warehouse bin/hdfs dfs -mkdir /tmp bin/hdfs dfs -mkdir -p /user/hive/warehouse 为上边的两个目录添加用户阅读全文

posted @ 2020-01-15 18:13 dousil 阅读(134) 评论(0) 推荐(0) 编辑

初识Hive

摘要：Hive 简单说明他没有很多的架构来讲，他就是一个简单的工具数据仓库软件，分布式的读，i写管理大数据访问方式：JDBC（代码）,命令行工具（常用） FaceBook 数据太大，需要大数据工程师，办法：用sql，sql转化为mapreduce程序，自动提交个yarn。关系型数据库和hive对阅读全文

posted @ 2020-01-15 17:32 dousil 阅读(89) 评论(0) 推荐(0) 编辑

MAPREDUCE详解

摘要：Map Reduce 过程 sd 阅读全文

posted @ 2020-01-15 16:09 dousil 阅读(101) 评论(0) 推荐(0) 编辑

MAPREDUCE 简单入门

摘要：什么是MAPREDUCE ： MapReduce 八个字的核心的思想分而治之， Mapreduce简单的工作原理： mapredue 有maptask、reducetask组成一个切片一个mapreduce, reduceTask 的默认是一个，可以设置多个设置过程job.setNumReduc 阅读全文

posted @ 2020-01-15 15:29 dousil 阅读(250) 评论(0) 推荐(0) 编辑

SSH 简单介绍

该文被密码保护。

posted @ 2020-01-14 14:40 dousil 阅读(1) 评论(0) 推荐(0) 编辑

HDFS 元数据管理机制

摘要：启动的命令：sbinhadoop-daemon.sh start secondarynamenode 镜像文件所在的位置：工作目录/name/curent/fsimage 操作日志操作日志：目录/name/edits_inprogress_000000000001 工作原理图：阅读全文

posted @ 2020-01-14 14:27 dousil 阅读(132) 评论(0) 推荐(0) 编辑

HDFS工作流程

摘要：HDFS 读写的入口是哪个节点：namenode 。 HDFS 数据读的流程判断成功标准：第一台节点成功，认为所有的都成 HDFS 写数据的流程 du 阅读全文

posted @ 2020-01-14 14:01 dousil 阅读(248) 评论(0) 推荐(0) 编辑

HADOOP 安全模式

摘要：hadoop 安全模式时间：每次在启动namenode的时候，都会进入安全模式。手动启动安全模式工作：检查块的个数。是否丢失。完成自动退出。特性：我们没有感觉。命令：查看：bin/hadoop dfsadmin -safemode get 进入： bin/hadoop dfsadmin 阅读全文

posted @ 2020-01-14 11:29 dousil 阅读(192) 评论(0) 推荐(0) 编辑

Hadoop环境的搭建

摘要：Hadoop环境的搭建 1. 本地模式开发人员调试环境，他不会按HDFS存数据，会将文件存储到本地的文件系统中。 2. 伪分布式模式开发调试环境和学习环境需要部署的是两个文件 core-site.html中添加 <configuration> <property> <!--指定Hadoop的阅读全文

posted @ 2020-01-14 11:15 dousil 阅读(129) 评论(0) 推荐(0) 编辑

初识Hadoop

摘要：Hadoop 发展历史 Apache Nutch 网页抓取互据，数据量达到瓶颈， Google 发表论文 Google FileSystem Apache 根据论文解决问题 Google 发表论文MapReduce Apache 根据论文，写了一套Mapreduce系统，应用到自己的项目 Apach 阅读全文

posted @ 2020-01-11 16:46 dousil 阅读(87) 评论(0) 推荐(0) 编辑

大数据简介

摘要：离线计算计算的速度比较慢计算的数据量大需要的技术Hadoop、HIve(离线分析，他的本质就是hadoop)、sqoop（协作框架） Hbase（数据库，非关系型数据库，分布式数据库）Flume(写作框架，收集日志数据) CM (图形化管理器，监控集群资源状态，部署集群。) 实时计算计算的数阅读全文

posted @ 2020-01-11 16:25 dousil 阅读(140) 评论(0) 推荐(0) 编辑

HDFS 存放策略

摘要：数据块每个磁盘都有默认数据块大小，这个数据块就是磁盘存取得最小得单位。磁盘块得大小一般为512字节数据块得大小小于512字节，他得空间也会被占用。 HDSF 数据块 HDFS也有数据块得大小，大小以前为64M，当前得大小为128M 。如果该块没有存满，不会占用整个数据块得空间。 HDFS 块阅读全文

posted @ 2020-01-11 15:48 dousil 阅读(690) 评论(0) 推荐(0) 编辑

01 2020 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜