Hadoop系列 - 随笔分类 - XIAO的博客

大数据处理中的Lambda架构和Kappa架构

摘要：首先我们来看一个典型的互联网大数据平台的架构，如下图所示：在这张架构图中，大数据平台里面向用户的在线业务处理组件用褐色标示出来，这部分是属于互联网在线应用的部分，其他蓝色的部分属于大数据相关组件，使用开源大数据产品或者自己开发相关大数据组件。你可以看到，大数据平台由上到下，可分为三个部分：数据采阅读全文

posted @ 2019-10-09 16:22 XIAO的博客阅读(26531) 评论(0) 推荐(7)

用Sqoop进行Hive和MySQL之间的数据互导

摘要：##Hive导数据入MySQL ###创建mysql表 use anticheat; create table anticheat_blacklist( userid varchar(30) primary key , dt int, update_time timestamp, delete_fl 阅读全文

posted @ 2019-04-15 20:10 XIAO的博客阅读(1668) 评论(0) 推荐(0)

大数据常见错误解决方案（转载）

摘要：1、用./bin/spark shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 解决方法：add expor 阅读全文

posted @ 2019-03-27 10:45 XIAO的博客阅读(11115) 评论(0) 推荐(0)

修改hive分区表，在分区列前增加一个字段

摘要：本文主要为了测试，在有数据的分区表中增加新的一个非分区字段后，新数据加入表中是否正常。原始数据创建分区表导入数据给表增加一列message 新数据导入新数据结论新数据正常加入表中，不用删除老数据，不过老数据对应新字段的值为null 阅读全文

posted @ 2016-11-23 11:52 XIAO的博客阅读(5538) 评论(1) 推荐(1)

将存储在本地的大量分散的小文件，合并并保存在hdfs文件系统中

摘要：import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import jav... 阅读全文

posted @ 2015-02-11 16:38 XIAO的博客阅读(992) 评论(0) 推荐(0)

hadoop shell 详解

摘要：概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法： Hadoop有一个选项解析框架用于解析一般的选项和运行类。命令选项 --config confdir 覆盖缺省配置目录。缺省是${HADOOP_HOME}/conf。 GEN 阅读全文

posted @ 2014-12-17 10:07 XIAO的博客阅读(605) 评论(0) 推荐(0)

XIAO的博客

随笔分类 - Hadoop系列