摘要: 一、概述 使用DataX进行数据同步时,如果没有开启kerberos,需要配置hdfsUser,不然会报权限错误;错误信息如下 二、错误分析 查看DataX的HdfsWriter插件,发现它底层的实现逻辑是:如果没有开启kerberos,那么会使用hdfsUser用户将数据写入到HDFS中;如果hd 阅读全文
posted @ 2020-05-21 11:04 虎啸千峰 阅读(3002) 评论(1) 推荐(0) 编辑
摘要: 一、概述 oracle数据字段一般都是默认大写,当我们的sql语句中使用小写字段时,有时候可以正常插入;但是严格模式下会报字段无法识别的问题。 示例如下: Caused by: java.sql.BatchUpdateException: ORA-00904: "TESTID": 标识符无效. 二、 阅读全文
posted @ 2020-05-15 17:18 虎啸千峰 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 一、概述 TDH使用方式和CDH有很大不同,需要先下载客户端,然后source其中的init.sh文件,使之生效,然后才能使用hdfs命令。 二、步骤 1、进入到管理界面,然后下载客户端 2、建立一个个人目录 mkdir /home/demo 然后将下载的客户端放入该目录中,解压客户端文件 sour 阅读全文
posted @ 2020-05-08 19:48 虎啸千峰 阅读(1753) 评论(0) 推荐(0) 编辑
摘要: Spark的jar包比较多,如果直接修改spark的jars目录中的jar可能对用户造成jar包冲突,也不利于管理,因为可以利用HDFS存储功能解决jar问题 1、在本地创建zip文件,压缩jar包 # 进入到spark的jars目录,在spark的jars目录下压缩包zip spark.zip . 阅读全文
posted @ 2020-04-29 09:00 虎啸千峰 阅读(1119) 评论(0) 推荐(0) 编辑
摘要: 一、概述 使用jdbc方式对数据进行同步时,由于设置了数据库登录超时时间是10s,结果发现有的服务器节点可以连接,有的服务器节点不能连接Mysql数据库。排查了好长原因,最后,自己写了一个jdbc的测试程序,发现正常节点连接只需要200ms左右,而其他节点却需要10400ms,而我们由于设置的10s 阅读全文
posted @ 2020-02-24 10:52 虎啸千峰 阅读(1194) 评论(0) 推荐(0) 编辑
摘要: 一、Sharding分片技术 1、分片概述 当数据量比较大的时候,我们需要把数分片运行在不同的机器中,以降低CPU、内存和Io的压力,Sharding就是数据库分片技术。 MongoDB分片技术类似MySQL的水平切分和垂直切分,数据库主要由俩种方式做Sharding:垂直扩展和横向切分。 垂直扩展 阅读全文
posted @ 2020-02-21 17:23 虎啸千峰 阅读(3587) 评论(0) 推荐(0) 编辑
摘要: 一、事务的概述 1、定义 事务就是一组单元化操作,这些操作要么都执行,要么都不执行,是一个不可分割的工作单位。 2、特点 事务(transaction)具有的四个要素:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。这四个 阅读全文
posted @ 2020-02-13 11:49 虎啸千峰 阅读(2271) 评论(0) 推荐(0) 编辑
摘要: 一、概述 存储过程(Stored Procedure)是在大型数据库系统中,一组为了完成特定功能的SQL 语句集。其存储在数据库中,经过第一次编译后调用不需要再次编译,用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。 存储过程是数据库中的一个重要对象。 二、存储过程的特点 能 阅读全文
posted @ 2020-02-13 10:37 虎啸千峰 阅读(1006) 评论(0) 推荐(0) 编辑
摘要: 一、Hive的部署 1、官方文档 https://cwiki.apache.org/confluence/display/Hive/GettingStarted 2、前提条件 需要安装JDK1.7之上版本 Hadoop2.x以上版本 一般选择在Linux上运行 元数据库Mysql 使用CDH-5.1 阅读全文
posted @ 2020-02-02 21:31 虎啸千峰 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 一、创建用户并指定家目录 示例:useradd -u 514 -g dba -G root -d /usr/local/mysql mysqladmin useradd表示:增加用户 -u 514:表示指定用户的id为514 -g data:表示指定用户的主组为data -G root:表示指定用户 阅读全文
posted @ 2020-01-29 21:56 虎啸千峰 阅读(752) 评论(0) 推荐(0) 编辑