摘要: FileGroup:文件组,为逻辑划分;Files:文件,为实际文件,需要指定文件属于哪个文件组。 使用多个文件的有点:可以将磁盘I/O压力分散,提供按文件和文件组(按文件和文件组进行备份需要设置数据的恢复模式为Full)进行备份。 备份:完整备份,差异备份,文件、文件组和日志备份(需要设置数据的恢 阅读全文
posted @ 2017-04-28 11:50 Niko12230 阅读(631) 评论(0) 推荐(0) 编辑
摘要: 1. Hive数据导入 - Load Load,加载,不会进行任何数据转换和处理的操作,只会进行数据Move操作,将元数据移动到HDFS指定目录 a> hdfs dfs -put 'hdfs的hive目录' b> LOAD DATA [LOCAL] INPATH 'filepath' [OVERWR 阅读全文
posted @ 2017-03-16 15:49 Niko12230 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 1. 将mysql的订单数据导入hive的分区表(桶、倾斜)【partition,bucket,skew】 a> 在Hive中新建分区表 b> 在Hive中创建和上述分区表格式一样的非分区表 c> 将mysql的数据导入到非分区表 sqoop --options-file load_mysql_to 阅读全文
posted @ 2017-03-14 15:18 Niko12230 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 1. Hive架构 What is hive? Facebook,https://en.wikipedia.org/wiki/Apache_Hive a> 一种工具,可以通过SQL轻松的访问数据,可以完成数据仓库任务,如ETL,报表及数据分析 b> 一种机制,增强多样化数据格式的结构 c> 数据访问 阅读全文
posted @ 2017-03-08 10:13 Niko12230 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 1. CentOS 更改IP 局域网配置: 在虚拟机的[网络]连接方式中选择:仅主机(Host-Only)网络。 路径:vim /etc/sysconfig/network-scripts/ifcfg-eth0 BOOTPROTO = none ONBOOT=yes IPADDR=192.168.5 阅读全文
posted @ 2017-03-06 15:34 Niko12230 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 1. 安装JDK JDK安装包复制到/opt文件夹 cd /opt rpm -ivh jdk-8u121-linux-x64.rpm vim /etc/profile 增加 JAVA_HOME=/usr/java/default PATH=$JAVA_HOME/bin:$PATH source /e 阅读全文
posted @ 2017-03-06 15:33 Niko12230 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 1. 下载 Sqoop,并复制到虚拟机 http://sqoop.apache.org/ 2. 安装Sqoop tar zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz #解压 SQOOP mv sqoop-1.4.6.bin__hadoop-2.0.4- 阅读全文
posted @ 2017-03-06 15:32 Niko12230 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 今天公司项目中遇到了一个需求,要求提取用户电话号码字段中的所有电话信息。 由于该字段在项目最初设计中没有严格控制数据质量,导致用户在输入时包含了很多非电话的信息,如用户名字等(136 **** **** 张san) 要求提取出当中的136******** 思路:创建函数,依次判断每个字符的ASCII 阅读全文
posted @ 2017-02-08 13:35 Niko12230 阅读(7395) 评论(0) 推荐(0) 编辑
摘要: 测试数据 数据 Pivot语法 代码 效果 阅读全文
posted @ 2017-02-06 14:54 Niko12230 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 1. 创建测试数据库HA_Snapshot 2. 创建快照 阅读全文
posted @ 2016-12-01 11:50 Niko12230 阅读(193) 评论(0) 推荐(0) 编辑