摘要:
FileGroup:文件组,为逻辑划分;Files:文件,为实际文件,需要指定文件属于哪个文件组。 使用多个文件的有点:可以将磁盘I/O压力分散,提供按文件和文件组(按文件和文件组进行备份需要设置数据的恢复模式为Full)进行备份。 备份:完整备份,差异备份,文件、文件组和日志备份(需要设置数据的恢 阅读全文
摘要:
1. Hive数据导入 - Load Load,加载,不会进行任何数据转换和处理的操作,只会进行数据Move操作,将元数据移动到HDFS指定目录 a> hdfs dfs -put 'hdfs的hive目录' b> LOAD DATA [LOCAL] INPATH 'filepath' [OVERWR 阅读全文
摘要:
1. 将mysql的订单数据导入hive的分区表(桶、倾斜)【partition,bucket,skew】 a> 在Hive中新建分区表 b> 在Hive中创建和上述分区表格式一样的非分区表 c> 将mysql的数据导入到非分区表 sqoop --options-file load_mysql_to 阅读全文
摘要:
1. Hive架构 What is hive? Facebook,https://en.wikipedia.org/wiki/Apache_Hive a> 一种工具,可以通过SQL轻松的访问数据,可以完成数据仓库任务,如ETL,报表及数据分析 b> 一种机制,增强多样化数据格式的结构 c> 数据访问 阅读全文
摘要:
1. CentOS 更改IP 局域网配置: 在虚拟机的[网络]连接方式中选择:仅主机(Host-Only)网络。 路径:vim /etc/sysconfig/network-scripts/ifcfg-eth0 BOOTPROTO = none ONBOOT=yes IPADDR=192.168.5 阅读全文
摘要:
1. 安装JDK JDK安装包复制到/opt文件夹 cd /opt rpm -ivh jdk-8u121-linux-x64.rpm vim /etc/profile 增加 JAVA_HOME=/usr/java/default PATH=$JAVA_HOME/bin:$PATH source /e 阅读全文
摘要:
1. 下载 Sqoop,并复制到虚拟机 http://sqoop.apache.org/ 2. 安装Sqoop tar zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz #解压 SQOOP mv sqoop-1.4.6.bin__hadoop-2.0.4- 阅读全文
摘要:
今天公司项目中遇到了一个需求,要求提取用户电话号码字段中的所有电话信息。 由于该字段在项目最初设计中没有严格控制数据质量,导致用户在输入时包含了很多非电话的信息,如用户名字等(136 **** **** 张san) 要求提取出当中的136******** 思路:创建函数,依次判断每个字符的ASCII 阅读全文
摘要:
测试数据 数据 Pivot语法 代码 效果 阅读全文
摘要:
1. 创建测试数据库HA_Snapshot 2. 创建快照 阅读全文