随笔档案「2019年12月」 - Xiaohu_BigData

Week08_day07（DataX从mysql上读取数据传输到HDFS上）

摘要：简介DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件的模式，目前已开源，代码托管在github。 Data 阅读全文

posted @ 2019-12-29 21:52 Xiaohu_BigData 阅读(859) 评论(0) 推荐(0)

Sqoop增量导入注意事项 incremental lastmodified与target-dir连用报错 Imported Failed: Wrong FS

摘要：这里引用一篇博客写的很好 https://blog.csdn.net/C_time/article/details/101109071 阅读全文

posted @ 2019-12-29 10:38 Xiaohu_BigData 阅读(327) 评论(0) 推荐(0)

大数据之路Week08_day06 (Zookeeper搭建）

摘要：Zookeeper集群搭建在本文中Zookeeper节点个数（奇数）为3个。Zookeeper默认对外提供服务的端口号2181 。Zookeeper集群内部3个节点之间通信默认使用2888:3888 192.168.129.101 192.168.129.102 192.168.129.103 下阅读全文

posted @ 2019-12-28 15:34 Xiaohu_BigData 阅读(289) 评论(0) 推荐(0)

大数据之路Week08_day06 (Zookeeper初识）

摘要：让我们来回顾一下我们在学习Hadoop中的HDFS的时候，肯定见过下面这样的两幅图：这副图代表着什么呢？它介绍的是Hadoop集群的高可靠，也就是前面提过的HA，仔细观察一下这副图，我们发现有两个NameNode，只不过一个是活跃的状态，一个是热备状态，什么是热备状态？比如说在之前的Hadoop 阅读全文

posted @ 2019-12-28 15:23 Xiaohu_BigData 阅读(180) 评论(0) 推荐(0)

阿里巴巴开源ETL(数据的抽取、转换、加载)工具-----DataX

摘要：一个比Sqoop好用的数据传输工具下载maven的时候，加一个 -P让下载的压缩包到指定目录而要让档案自动储存到指令的目录下，则需要借用-P这个参数wget -p 目录网址wget -P /root/download 网址解压的时候：其中用到了tar这个命令，发现在Qt中的file取得路径阅读全文

posted @ 2019-12-27 20:40 Xiaohu_BigData 阅读(2421) 评论(0) 推荐(0)

大数据之路Week08_day03 (Hive的动态分区和分桶）

摘要：一、动态分区先来说说我对动态分区的理解与一些感受吧。由于我们通过hive去查询数据的时候，实际还是查询HDFS上的数据，一旦一个目录下有很多文件呢？而我们去查找的数据也没有那么多，全盘扫描就会浪费很多时间和资源。为了避免全盘扫描和提高查询效率，引入了分区的概念。分区的展现形式，就是在HDFS 阅读全文

posted @ 2019-12-25 20:29 Xiaohu_BigData 阅读(433) 评论(0) 推荐(0)

大数据之路Week08_day03 (Hive优化）

摘要：Hive优化（下面的红色标记是十分重要的，大部分情况是需要开启的）优化1：hive的抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。Set hive.fetch.task.conversio 阅读全文

posted @ 2019-12-25 16:13 Xiaohu_BigData 阅读(286) 评论(0) 推荐(0)

java.lang.IllegalStateException: File name has been re-used with different files. (flume报错）

摘要：报错日志： java.lang.IllegalStateException: File name has been re-used with different files. Spooling assumptions violated for /usr/local/data/flumedata/wo 阅读全文

posted @ 2019-12-24 22:04 Xiaohu_BigData 阅读(1117) 评论(0) 推荐(0)

大数据之路Week08_day02 (Flume的使用举例（从控制台输入数据，从本地打数据到HDFS，从java代码中进行捕获打入到HDFS，flume监控http source））

摘要：在使用之前，提供一个大致思想，使用Flume的过程是确定scource类型，channel类型和sink类型，编写conf文件并开启服务，在数据捕获端进行传入数据流入到目的地。实例一、从控制台打入数据，在控制台显示 1、确定scource类型，channel类型和sink类型确定的使用类型分别是阅读全文

posted @ 2019-12-24 21:59 Xiaohu_BigData 阅读(406) 评论(0) 推荐(0)

大数据之路Week08_day02 (Flume 三个组件Source, channel, sink）

摘要：在使用之前，先介绍组件Flume的特点和一些组件 Flume的优势： 1. Flume可以将应用产生的数据存储到任何集中存储器中，比如HDFS,HBase 2. 当收集数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，这时候收集的信息非常大，甚至超过了系统的写入数据能力，这时候，Flume 阅读全文

posted @ 2019-12-24 21:05 Xiaohu_BigData 阅读(769) 评论(0) 推荐(0)

大数据之路Week08_day02 (Flume架构介绍和安装)

摘要：Flume架构介绍和安装写在前面在学习一门新的技术之前，我们得知道了解这个东西有什么用？我们可以使用它来做些什么呢？简单来说，flume是大数据日志分析中不能缺少的一个组件，既可以使用在流处理中，也可以使用在数据的批处理中。1.流处理：2.离线批处理：分析：不管你是数据的实时流处理，还是数据的离线阅读全文

posted @ 2019-12-24 20:45 Xiaohu_BigData 阅读(334) 评论(0) 推荐(0)

Hive调优

摘要：cd /optvi test.sh #!/bin/bash datetime=(date′+source/etc/profilehive−e"loaddatalocalinpath′/opt/datame.txt′intotableshujuku.tablenamepartition(dt 阅读全文

posted @ 2019-12-24 14:03 Xiaohu_BigData 阅读(622) 评论(0) 推荐(0)

hive的shell用法（脑子糊涂了，对着脚本第一行是 #!/bin/sh 疯狂执行hive -f 结果报错）

摘要：hive脚本的执行方式 hive脚本的执行方式大致有三种： hive控制台执行； hive -e "SQL"执行； hive -f SQL文件执行；参考hive用法： usage: hive -d,--define <key=value> Variable subsitution to apply 阅读全文

posted @ 2019-12-23 22:50 Xiaohu_BigData 阅读(1463) 评论(0) 推荐(0)

Week08_day01 (Hive 自定义函数 UDF 一个输入，一个输出（最常用）)

摘要：当我们进入企业就会发现，很多时候，企业的数据都是加密的，我们拿到的数据没办法使用Hive自带的函数去解决，我们就需要自己去定义函数去查看，哈哈，然而企业一般不会将解密的代码给你的，只需要会用，但是我们也需要知道怎么去实现。 1、打开编译器，我使用的myEclipse, 在maven项目中添加依赖 < 阅读全文

posted @ 2019-12-23 22:01 Xiaohu_BigData 阅读(585) 评论(0) 推荐(0)

Week08_day01 (Hive开窗函数 row_number()的使用（求出所有薪水前两名的部门）)

摘要：数据准备： 7369,SMITH,CLERK,7902,1980-12-17,800,null,20 7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30 7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30 7566 阅读全文

posted @ 2019-12-23 20:54 Xiaohu_BigData 阅读(568) 评论(0) 推荐(0)

Week08_day01 (Hive实现按照指定格式输出每七天的消费平均数)

摘要：Hive实现按照指定格式输出每七天的消费平均数数据准备 2018/6/1,10 2018/6/2,11 2018/6/3,11 2018/6/4,12 2018/6/5,14 2018/6/6,15 2018/6/7,13 2018/6/8,37 2018/6/9,18 2018/6/10,19 阅读全文

posted @ 2019-12-23 20:15 Xiaohu_BigData 阅读(1832) 评论(1) 推荐(2)

Week08_day01 (Hive实现WordCount计数)

摘要：Hive实现WordCount计数在没学习Hive之前，我们学习MapReduce去实现WordCount计数的时候，就要去编写80多行的java代码，现在我们学习了Hive，我们只需要一行Sql语句就可以实现。准备数据在hive中创建表使用本地导入的命令进行导入数据 select 查看一下阅读全文

posted @ 2019-12-23 19:44 Xiaohu_BigData 阅读(490) 评论(0) 推荐(0)

SQL中 count(*)和count(1)的对比，区别

摘要：执行效果： 1. count(1) and count(*) 当表的数据量大些时，对表作分析之后，使用count(1)还要比使用count(*)用时多了！从执行计划来看，count(1)和count(*)的效果是一样的。但是在表做过分析之后，count(1)会比count(*)的用时少些（1w以阅读全文

posted @ 2019-12-22 22:40 Xiaohu_BigData 阅读(6374) 评论(0) 推荐(0)

大数据之路week07--day07 （修改mysql默认编码）

摘要：在Sqoop导入或者导出，我们在查看mysql的时候会出现中文乱码大部分乱码会是？这样的问号，那么该怎么处理呢？ 1、打开my.cnf文件 vim /etc/my.cnf 2、找到对应需要修改的地方共3个地方，[client] [mysqld] [mysql]找到对应的位置，加入以下配置[mysq 阅读全文

posted @ 2019-12-22 19:35 Xiaohu_BigData 阅读(244) 评论(0) 推荐(0)

大数据之路week07--day07 （Hive结构设计以及Hive语法）

摘要：Hive架构流程（十分重要，结合图进行记忆理解）当客户端提交请求，它先提交到Driver,Driver拿到这个请求后,先把表明，字段名拿出来，去数据库进行元数据验证，也就是Metasore，如果有，返回有，Driver再返回给Complier编译器，进行HQL解析到MR任务的转化过程，执行完之后提交阅读全文

posted @ 2019-12-22 19:26 Xiaohu_BigData 阅读(506) 评论(0) 推荐(0)

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

摘要：我们之前导入的都是全量导入，一次性全部导入，但是实际开发并不是这样，例如web端进行用户注册，mysql就增加了一条数据，但是HDFS中的数据并没有进行更新，但是又再全部导入一次又完全没有必要。所以，sqoop提供了增量导入的方法。 1、数据准备： 2、将其先用全量导入到HDFS中去 3、先在my 阅读全文

posted @ 2019-12-22 14:00 Xiaohu_BigData 阅读(537) 评论(0) 推荐(0)

大数据之路week07--day06 （Sqoop 在从HDFS中导出到关系型数据库时的一些问题）

摘要：问题一：在上传过程中遇到这种问题： ERROR tool.ExportTool: Encountered IOException running export job: java.io.IOException: No columns to generate for ClassWriter 解决方式阅读全文

posted @ 2019-12-21 21:50 Xiaohu_BigData 阅读(809) 评论(0) 推荐(0)

大数据之路week07--day06 （Sqoop 的使用）

摘要：Sqoop的使用一（将数据库中的表数据上传到HDFS）首先我们先准备数据 1、没有主键的数据（下面介绍有主键和没有主键的使用区别） -- MySQL dump 10.13 Distrib 5.1.73, for redhat-linux-gnu (x86_64) -- -- Host: local 阅读全文

posted @ 2019-12-21 21:35 Xiaohu_BigData 阅读(496) 评论(0) 推荐(0)

大数据之路week07--day06 （Sqoop 的安装及配置）

摘要：Sqoop 的安装配置比较简单。提供安装需要的安装包和连接mysql的驱动的百度云链接：链接：https://pan.baidu.com/s/1pdFj0u2lZVFasgoSyhz-yQ 提取码：62vt 1、下载后将两个都拖到自己安装Hive的节点上去，因为我们后面配置文件中会去配置这些，在阅读全文

posted @ 2019-12-21 21:18 Xiaohu_BigData 阅读(288) 评论(0) 推荐(0)

大数据之路week07--day06 （Sqoop 将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具）

摘要：为了方便后面的学习，在学习Hive的过程中先学习一个工具，那就是Sqoop，你会往后机会发现sqoop是我们在学习大数据框架的最简单的框架了。 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）阅读全文

posted @ 2019-12-21 21:05 Xiaohu_BigData 阅读(515) 评论(0) 推荐(0)

大数据之路week07--day05 （Hive的搭建部署）

摘要：在之前博客中我有记录安装JDK和Hadoop和Mysql的过程，如果还没有安装，请先进行安装配置好，对应的随笔我也提供了百度云下载连接。安装JDK: https://www.cnblogs.com/wyh-study/p/12014368.html 安装Hadoop https://www.cnb 阅读全文

posted @ 2019-12-20 20:20 Xiaohu_BigData 阅读(727) 评论(0) 推荐(0)

大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）

摘要：什么是Hive？我来一个短而精悍的总结（面试常问） 1:hive是基于hadoop的数据仓库建模工具之一（后面还有TEZ，Spark）。 2:hive可以使用类sql方言，对存储在hdfs上的数据进行分析和管理。 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用阅读全文

posted @ 2019-12-20 19:46 Xiaohu_BigData 阅读(1230) 评论(0) 推荐(0)

大数据之路week07--day04 （Linux 中查看文件内容的关键字处）

摘要：Linux如何对文件内容中的关键字进行查找如果是用vi打开文件后，在命令行下输入“/关键字” 如果是在没有打开文件的前提就用"cat 文件名 | grep "关键字"" 例如： cat 123.txt |grep dashuju 全部的都会列出来 shift+Z+Z 快速退出文件编辑不保存阅读全文

posted @ 2019-12-20 00:04 Xiaohu_BigData 阅读(212) 评论(0) 推荐(0)

大数据之路week07--day04 (YARN，Hadoop的优化，combline，join思想，)

摘要：hadoop 的计算特点：将计算任务向数据靠拢，而不是将数据向计算靠拢。特点：数据本地化，减少网络io。首先需要知道，hadoop数据本地化是指的map任务，reduce任务并不具备数据本地化特征。通常输入的数据首先在逻辑上（注意这里不是真正物理上划分）将会分片split，每个分片上构建一个m 阅读全文

posted @ 2019-12-19 20:34 Xiaohu_BigData 阅读(486) 评论(0) 推荐(0)

大数据之路week07--day03（Hadoop深入理解，JAVA代码编写WordCount程序，以及扩展升级）

摘要：什么是MapReduce 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是： 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃，几张是红桃，然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来，得到最后阅读全文

posted @ 2019-12-18 13:15 Xiaohu_BigData 阅读(466) 评论(0) 推荐(0)

大数据之路week07--day01（HDFS学习，Java代码操作HDFS，将HDFS文件内容存入到Mysql）

摘要：一、HDFS概述数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。通透阅读全文

posted @ 2019-12-16 19:40 Xiaohu_BigData 阅读(920) 评论(0) 推荐(0)

大数据之路week06--day07（Linux中的mysql的离线安装）

摘要：这里我提供服务端和客户端的两个jar包的百度云，也是我使用的链接：https://pan.baidu.com/s/11a3LT-ENZ8n9IF19-VjmWA 提取码：bdls 离线安装Mysql 1°、查看mysql的依赖 rpm -qa | grep mysql 2°、删除mysql的依赖阅读全文

posted @ 2019-12-15 16:53 Xiaohu_BigData 阅读(490) 评论(0) 推荐(0)

大数据之路week06--day07（Hadoop生态圈的介绍）

摘要：Hadoop 基本概念一、Hadoop出现的前提环境随着数据量的增大带来了以下的问题（1）如何存储大量的数据？（2）怎么处理这些数据？（3）怎样的高效的分析这些数据？（4）在数据增长的情况下如何构建一个解决方案？在大数据领域提出了两个概念（1）分布式文件系统用于存储大量的数据（2 阅读全文

posted @ 2019-12-15 14:59 Xiaohu_BigData 阅读(317) 评论(0) 推荐(0)

大数据之路week06--day07（Hadoop常用命令）

摘要：一、前述分享一篇hadoop的常用命令的总结，将常用的Hadoop命令总结如下。二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 2、阅读全文

posted @ 2019-12-15 14:18 Xiaohu_BigData 阅读(391) 评论(0) 推荐(0)

大数据之路week06--day07（完全分布式Hadoop的搭建）

摘要：前提工作：克隆2台虚拟机完成后：新的2台虚拟机，请务必依次修改3台虚拟机的ip地址和主机名称【建议三台主机名称依次叫做：master、node1、node2 】上一篇博客（三台虚拟机都要开机） Hadoop2.6.0 的压缩包，这里我提供百度云，没有的可以进行下载链接：https://pan 阅读全文

posted @ 2019-12-15 13:54 Xiaohu_BigData 阅读(1699) 评论(3) 推荐(0)

大数据之路week06--day07（虚拟机的克隆）

摘要：1、安装vmware，务必以管理员身份运行操作系统(CentOS 6.5)的配置准备工作：虚拟机安装三台linux 本次测试是 centos 6.5，(三台虚拟机的系统时间保持一致) *安装jdk（在另外一个文档中） *克隆虚拟机 *在vmware设置-克隆（虚拟机要关机，jdk要配置好）选择阅读全文

posted @ 2019-12-15 13:32 Xiaohu_BigData 阅读(495) 评论(0) 推荐(0)

大数据之路week06--day03（jdk8新特性 Lambda表达式）

摘要：为什么使用Lambda表达式？（做为初学者接触这个新的语法，会很懵逼，说道理，我在接触到这一块的时候，语法规则我看到了也很懵逼，因为这个和逻辑的关系不是很大，但就是作为一种新的语法出现，一时间很难接受。所以，只要我们多加练习，熟悉了就会接受了，记住，要多加练习！！就像你和一个刚刚学习Java的人来说阅读全文

posted @ 2019-12-11 20:20 Xiaohu_BigData 阅读(450) 评论(0) 推荐(0)

解决CentOS虚拟机开机黑屏卡死问题

摘要：默认配置导致的错误 1、直接就是黑屏，连杠杠都没有 2、centos系统关不掉 3、关闭vmware提示：虚拟机XXX繁忙解决方式一（我的失败，依旧不行）1、强制关闭vmware，重启计算机（不重启虚拟机重新开提示占用，网上删.lck方式试过没用） 2、编辑虚拟机设置 3、内存改为2GB 处理阅读全文

posted @ 2019-12-10 11:59 Xiaohu_BigData 阅读(17712) 评论(1) 推荐(1)

大数据之路week06--day01（Xshell和Xftp的下载与安装、配置JDK）

摘要：上一节，介绍了VMware的下载与安装、安装CentOS 在企业中，我们大多数是不会有界面化操作的，领导也不会直接给你账户的，我们需要自己从外部链接到Linux系统进行操作，对Linux系统的操作都在外部。比较常用的Xshell 这里我同样给出百度云链接：链接：https://pan.baidu 阅读全文

posted @ 2019-12-10 00:49 Xiaohu_BigData 阅读(870) 评论(0) 推荐(0)

大数据之路week06--day01（VMware的下载与安装、安装CentOS）

摘要：好了，从今天开始就开始正式的进入大数据道路的轨道上了，当然了，Java 也是需要不断地在日后进行反复地学习，熟练掌握。（这里我要说一下，Java种还有一些I/O流、Lambda表达式和一些常用工具类有关的博客没有更新、在后面的学习中，我会抽空进行补充。）在此之前，希望每个学习大数据的童鞋们，电脑的阅读全文

posted @ 2019-12-10 00:33 Xiaohu_BigData 阅读(807) 评论(0) 推荐(0)

大数据之路week05--day07（序列化、类加载器、反射、动态代理）

摘要：遇到这个 Java Serializable 序列化这个接口，我们可能会有如下的问题 a，什么叫序列化和反序列化b，作用。为啥要实现这个 Serializable 接口，也就是为啥要序列化c，serialVersionUID 这个的值到底是在怎么设置的，有什么用。有的是1L，有的是一长串数字，迷惑i 阅读全文

posted @ 2019-12-09 00:27 Xiaohu_BigData 阅读(300) 评论(0) 推荐(0)

大数据之路week05--day02（Maven安装，环境变量的配置及基本使用）

摘要：今天我们就来学习一下maven，怎么说呢，maven更像是一种管理的工具，实现的原理是使用插件。举个例子，比如说，一个公司需要做一个项目，这个项目又分成了很多的模块，每个模块又分成了许多的业务等等，这些需要许许多多的小组进行进行，最后再进行整合。那么，就有一个很大的问题，IT技术发展这么快的时代阅读全文

posted @ 2019-12-03 21:41 Xiaohu_BigData 阅读(356) 评论(0) 推荐(0)

大数据之路week05--day01（JDBC 初识之实现一个系统实现用户选择增删改查未优化版本）

摘要：要求，实现用户选择增删改查。给出mysql文件，朋友们可以自己运行导入到自己的数据库中： /* Navicat MySQL Data Transfer Source Server : mysql Source Server Version : 50557 Source Host : 127.0.0 阅读全文

posted @ 2019-12-02 21:24 Xiaohu_BigData 阅读(161) 评论(0) 推荐(0)

大数据之路week05--day01（JDBC 初识）

摘要：一、概述 JDBC（Java Data Base Connectivity,java数据库连接）是一种用于执行SQL语句的Java API，可以为多种关系数据库提供统一访问，它由一组用Java语言编写的类和接口组成。是Java访问数据库的标准规范 JDBC提供了一种基准,据此可以构建更高级的工具和接阅读全文

posted @ 2019-12-02 21:19 Xiaohu_BigData 阅读(239) 评论(1) 推荐(0)

大数据之路week05--day01（I/O流阶段一之File）

摘要：众所周知，我们电脑中有许许多多的文件夹和文件，文件的形式也有许多不同的格式，文件夹中也可以新建文件夹的存在，也就是多层的一步一步的嵌套。我们想要实现I/O操作，就必须知道硬盘上文件的表现形式。而Java就提供了一个类FIle供我们使用。 File: 文件和目录（文件夹）路径名的抽象表现形式构造阅读全文

posted @ 2019-12-02 20:50 Xiaohu_BigData 阅读(198) 评论(0) 推荐(0)

Xiaohu_BigData

12 2019 档案

公告