随笔分类 -  Hadoop系列

大数据处理中的Lambda架构和Kappa架构
摘要:首先我们来看一个典型的互联网大数据平台的架构,如下图所示: 在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。 你可以看到,大数据平台由上到下,可分为三个部分:数据采 阅读全文

posted @ 2019-10-09 16:22 XIAO的博客 阅读(26208) 评论(0) 推荐(7) 编辑

用Sqoop进行Hive和MySQL之间的数据互导
摘要:##Hive导数据入MySQL ###创建mysql表 use anticheat; create table anticheat_blacklist( userid varchar(30) primary key , dt int, update_time timestamp, delete_fl 阅读全文

posted @ 2019-04-15 20:10 XIAO的博客 阅读(1611) 评论(0) 推荐(0) 编辑

大数据常见错误解决方案(转载)
摘要:1、用./bin/spark shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 解决方法:add expor 阅读全文

posted @ 2019-03-27 10:45 XIAO的博客 阅读(10895) 评论(0) 推荐(0) 编辑

修改hive分区表,在分区列前增加一个字段
摘要:本文主要为了测试,在有数据的分区表中增加新的一个非分区字段后,新数据加入表中是否正常。 原始数据 创建分区表 导入数据 给表增加一列message 新数据 导入新数据 结论 新数据正常加入表中,不用删除老数据,不过老数据对应新字段的值为null 阅读全文

posted @ 2016-11-23 11:52 XIAO的博客 阅读(5502) 评论(1) 推荐(1) 编辑

将存储在本地的大量分散的小文件,合并并保存在hdfs文件系统中
摘要:import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import jav... 阅读全文

posted @ 2015-02-11 16:38 XIAO的博客 阅读(980) 评论(0) 推荐(0) 编辑

hadoop shell 详解
摘要:概述 所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。 用法: Hadoop有一个选项解析框架用于解析一般的选项和运行类。 命令选项 --config confdir 覆盖缺省配置目录。缺省是${HADOOP_HOME}/conf。 GEN 阅读全文

posted @ 2014-12-17 10:07 XIAO的博客 阅读(594) 评论(0) 推荐(0) 编辑

导航

统计

点击右上角即可分享
微信分享提示