12 2019 档案
摘要:简介DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github。 Data
阅读全文
摘要:这里引用一篇博客 写的很好 https://blog.csdn.net/C_time/article/details/101109071
阅读全文
摘要:Zookeeper集群搭建 在本文中Zookeeper节点个数(奇数)为3个。Zookeeper默认对外提供服务的端口号2181 。Zookeeper集群内部3个节点之间通信默认使用2888:3888 192.168.129.101 192.168.129.102 192.168.129.103 下
阅读全文
摘要:让我们来回顾一下我们在学习Hadoop中的HDFS的时候,肯定见过下面这样的两幅图: 这副图代表着什么呢?它介绍的是Hadoop集群的高可靠,也就是前面提过的HA,仔细观察一下这副图,我们发现有两个NameNode,只不过一个是活跃的状态 ,一个是热备状态,什么是热备状态?比如说在之前的Hadoop
阅读全文
摘要:一个比Sqoop好用的数据传输工具 下载maven的时候,加一个 -P让下载的压缩包到指定目录 而要让档案自动储存到指令的目录下,则需要借用-P这个参数wget -p 目录 网址wget -P /root/download 网址 解压的时候: 其中用到了tar这个命令,发现在Qt中的file取得路径
阅读全文
摘要:一、动态分区 先来说说我对动态分区的理解与一些感受吧。 由于我们通过hive去查询数据的时候,实际还是查询HDFS上的数据,一旦一个目录下有很多文件呢?而我们去查找的数据也没有那么多,全盘扫描就会浪费很多时间和资源。 为了避免全盘扫描和提高查询效率,引入了分区的概念。 分区的展现形式,就是在HDFS
阅读全文
摘要:Hive优化(下面的红色标记是十分重要的,大部分情况是需要开启的) 优化1:hive的抓取策略理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们省略掉了这个过程,把切片split的过程提前帮我们做了。Set hive.fetch.task.conversio
阅读全文
摘要:报错日志: java.lang.IllegalStateException: File name has been re-used with different files. Spooling assumptions violated for /usr/local/data/flumedata/wo
阅读全文
摘要:在使用之前,提供一个大致思想,使用Flume的过程是确定scource类型,channel类型和sink类型,编写conf文件并开启服务,在数据捕获端进行传入数据流入到目的地。 实例一、从控制台打入数据,在控制台显示 1、确定scource类型,channel类型和sink类型 确定的使用类型分别是
阅读全文
摘要:在使用之前,先介绍组件Flume的特点和一些组件 Flume的优势: 1. Flume可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase 2. 当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume
阅读全文
摘要:Flume架构介绍和安装 写在前面在学习一门新的技术之前,我们得知道了解这个东西有什么用?我们可以使用它来做些什么呢?简单来说,flume是大数据日志分析中不能缺少的一个组件,既可以使用在流处理中,也可以使用在数据的批处理中。1.流处理:2.离线批处理:分析:不管你是数据的实时流处理,还是数据的离线
阅读全文
摘要:cd /optvi test.sh #!/bin/bash datetime=(date′+source/etc/profilehive−e"loaddatalocalinpath′/opt/datame.txt′intotableshujuku.tablenamepartition(dt
阅读全文
摘要:hive脚本的执行方式 hive脚本的执行方式大致有三种: hive控制台执行; hive -e "SQL"执行; hive -f SQL文件执行;参考hive用法: usage: hive -d,--define <key=value> Variable subsitution to apply
阅读全文
摘要:当我们进入企业就会发现,很多时候,企业的数据都是加密的,我们拿到的数据没办法使用Hive自带的函数去解决,我们就需要自己去定义函数去查看,哈哈,然而企业一般不会将解密的代码给你的,只需要会用,但是我们也需要知道怎么去实现。 1、打开编译器,我使用的myEclipse, 在maven项目中添加依赖 <
阅读全文
摘要:数据准备: 7369,SMITH,CLERK,7902,1980-12-17,800,null,20 7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30 7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30 7566
阅读全文
摘要:Hive实现按照指定格式输出每七天的消费平均数 数据准备 2018/6/1,10 2018/6/2,11 2018/6/3,11 2018/6/4,12 2018/6/5,14 2018/6/6,15 2018/6/7,13 2018/6/8,37 2018/6/9,18 2018/6/10,19
阅读全文
摘要:Hive实现WordCount计数 在没学习Hive之前,我们学习MapReduce去实现WordCount计数的时候,就要去编写80多行的java代码,现在我们学习了Hive,我们只需要一行Sql语句就可以实现。 准备数据 在hive中创建表 使用本地导入的命令进行导入数据 select 查看一下
阅读全文
摘要:执行效果: 1. count(1) and count(*) 当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count(*)用时多了! 从执行计划来看,count(1)和count(*)的效果是一样的。 但是在表做过分析之后,count(1)会比count(*)的用时少些(1w以
阅读全文
摘要:在Sqoop导入或者导出,我们在查看mysql的时候会出现中文乱码大部分乱码会是?这样的问号,那么该怎么处理呢? 1、打开my.cnf文件 vim /etc/my.cnf 2、找到对应需要修改的地方 共3个地方,[client] [mysqld] [mysql]找到对应的位置,加入以下配置[mysq
阅读全文
摘要:Hive架构流程(十分重要,结合图进行记忆理解)当客户端提交请求,它先提交到Driver,Driver拿到这个请求后,先把表明,字段名拿出来,去数据库进行元数据验证,也就是Metasore,如果有,返回有,Driver再返回给Complier编译器,进行HQL解析到MR任务的转化过程,执行完之后提交
阅读全文
摘要:我们之前导入的都是全量导入,一次性全部导入,但是实际开发并不是这样,例如web端进行用户注册,mysql就增加了一条数据,但是HDFS中的数据并没有进行更新,但是又再全部导入一次又完全没有必要。 所以,sqoop提供了增量导入的方法。 1、数据准备: 2、将其先用全量导入到HDFS中去 3、先在my
阅读全文
摘要:问题一: 在上传过程中遇到这种问题: ERROR tool.ExportTool: Encountered IOException running export job: java.io.IOException: No columns to generate for ClassWriter 解决方式
阅读全文
摘要:Sqoop的使用一(将数据库中的表数据上传到HDFS) 首先我们先准备数据 1、没有主键的数据(下面介绍有主键和没有主键的使用区别) -- MySQL dump 10.13 Distrib 5.1.73, for redhat-linux-gnu (x86_64) -- -- Host: local
阅读全文
摘要:Sqoop 的安装配置比较简单。 提供安装需要的安装包和连接mysql的驱动的百度云链接: 链接:https://pan.baidu.com/s/1pdFj0u2lZVFasgoSyhz-yQ 提取码:62vt 1、下载后将两个都拖到自己安装Hive的节点上去,因为我们后面配置文件中会去配置这些,在
阅读全文
摘要:为了方便后面的学习,在学习Hive的过程中先学习一个工具,那就是Sqoop,你会往后机会发现sqoop是我们在学习大数据框架的最简单的框架了。 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)
阅读全文
摘要:在之前博客中我有记录安装JDK和Hadoop和Mysql的过程,如果还没有安装,请先进行安装配置好,对应的随笔我也提供了百度云下载连接。 安装JDK: https://www.cnblogs.com/wyh-study/p/12014368.html 安装Hadoop https://www.cnb
阅读全文
摘要:什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark)。 2:hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理。 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用
阅读全文
摘要:Linux如何对文件内容中的关键字进行查找 如果是用vi打开文件后,在命令行下输入“/关键字” 如果是在没有打开文件的前提就用"cat 文件名 | grep "关键字"" 例如: cat 123.txt |grep dashuju 全部的都会列出来 shift+Z+Z 快速退出文件编辑 不保存
阅读全文
摘要:hadoop 的计算特点:将计算任务向数据靠拢,而不是将数据向计算靠拢。 特点:数据本地化,减少网络io。 首先需要知道,hadoop数据本地化是指的map任务,reduce任务并不具备数据本地化特征。 通常输入的数据首先在逻辑上(注意这里不是真正物理上划分)将会分片split,每个分片上构建一个m
阅读全文
摘要:什么是MapReduce 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后
阅读全文
摘要:一、HDFS概述 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 通透
阅读全文
摘要:这里我提供 服务端和客户端的两个jar包的百度云,也是我使用的 链接:https://pan.baidu.com/s/11a3LT-ENZ8n9IF19-VjmWA 提取码:bdls 离线安装Mysql 1°、查看mysql的依赖 rpm -qa | grep mysql 2°、删除mysql的依赖
阅读全文
摘要:Hadoop 基本概念 一、Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况下如何构建一个解决方案? 在大数据领域提出了两个概念 (1)分布式文件系统 用于存储大量的数据 (2
阅读全文
摘要:一、前述 分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下。 二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 2、
阅读全文
摘要:前提工作: 克隆2台虚拟机完成后:新的2台虚拟机,请务必依次修改3台虚拟机的ip地址和主机名称【建议三台主机名称依次叫做:master、node1、node2 】 上一篇博客 (三台虚拟机都要开机) Hadoop2.6.0 的压缩包,这里我提供百度云,没有的可以进行下载 链接:https://pan
阅读全文
摘要:1、安装vmware,务必以管理员身份运行 操作系统(CentOS 6.5)的配置 准备工作:虚拟机安装三台linux 本次测试是 centos 6.5,(三台虚拟机的系统时间保持一致) *安装jdk(在另外一个文档中) *克隆虚拟机 *在vmware设置-克隆(虚拟机要关机,jdk要配置好) 选择
阅读全文
摘要:为什么使用Lambda表达式?(做为初学者接触这个新的语法,会很懵逼,说道理,我在接触到这一块的时候,语法规则我看到了也很懵逼,因为这个和逻辑的关系不是很大,但就是作为一种新的语法出现,一时间很难接受。所以,只要我们多加练习,熟悉了就会接受了,记住,要多加练习!!就像你和一个刚刚学习Java的人来说
阅读全文
摘要:默认配置 导致的错误 1、直接就是黑屏,连杠杠都没有 2、centos系统关不掉 3、关闭vmware提示:虚拟机XXX繁忙 解决方式 一(我的失败,依旧不行)1、强制关闭vmware,重启计算机(不重启虚拟机重新开提示占用,网上删.lck方式试过没用) 2、编辑虚拟机设置 3、内存改为2GB 处理
阅读全文
摘要:上一节,介绍了VMware的下载与安装、安装CentOS 在企业中,我们大多数是不会有界面化操作的,领导也不会直接给你账户的,我们需要自己从外部链接到Linux系统进行操作,对Linux系统的操作都在外部。 比较常用的Xshell 这里我同样给出百度云链接: 链接:https://pan.baidu
阅读全文
摘要:好了,从今天开始就开始正式的进入大数据道路的轨道上了,当然了,Java 也是需要不断地在日后进行反复地学习,熟练掌握。(这里我要说一下,Java种还有一些I/O流、Lambda表达式和一些常用工具类有关的博客没有更新、在后面的学习中,我会抽空进行补充。) 在此之前,希望每个学习大数据的童鞋们,电脑的
阅读全文
摘要:遇到这个 Java Serializable 序列化这个接口,我们可能会有如下的问题 a,什么叫序列化和反序列化b,作用。为啥要实现这个 Serializable 接口,也就是为啥要序列化c,serialVersionUID 这个的值到底是在怎么设置的,有什么用。有的是1L,有的是一长串数字,迷惑i
阅读全文
摘要:今天我们就来学习一下maven,怎么说呢,maven更像是一种管理的工具,实现的原理是使用插件。 举个例子,比如说,一个公司需要做一个项目,这个项目又分成了很多的模块,每个模块又分成了许多的业务等等,这些需要许许多多的小组进行进行,最后再进行整合。 那么,就有一个很大的问题,IT技术发展这么快的时代
阅读全文
摘要:要求,实现用户选择增删改查。 给出mysql文件,朋友们可以自己运行导入到自己的数据库中: /* Navicat MySQL Data Transfer Source Server : mysql Source Server Version : 50557 Source Host : 127.0.0
阅读全文
摘要:一、概述 JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。是Java访问数据库的标准规范 JDBC提供了一种基准,据此可以构建更高级的工具和接
阅读全文
摘要:众所周知,我们电脑中有许许多多的文件夹和文件,文件的形式也有许多不同的格式,文件夹中也可以新建文件夹的存在,也就是多层的一步一步的嵌套。 我们想要实现I/O操作,就必须知道硬盘上文件的表现形式。 而Java就提供了一个类FIle供我们使用。 File: 文件和目录(文件夹)路径名的抽象表现形式 构造
阅读全文

浙公网安备 33010602011771号