Fork me on GitHub
摘要: "如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?" 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用 阅读全文
posted @ 2018-06-23 10:07 削微寒 阅读(805) 评论(0) 推荐(0) 编辑
摘要: 一、User: xx is not allowed to impersonate xxx' 解决办法:修改 文件,加入下面的内容后重启 hadoop 。 Tips: 注意是 不是 二、ACCEPTED: waiting for AM container to be allocated, launch 阅读全文
posted @ 2018-06-23 10:05 削微寒 阅读(2041) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 推荐阅读 "Presto实现原理和美团的使用实践" 二、安装 2.1 安装步骤 1. 阅读全文
posted @ 2018-06-23 10:04 削微寒 阅读(2836) 评论(0) 推荐(0) 编辑
摘要: Hive 导入 parquet 数据步骤如下: 1. 查看 parquet 文件的格式 2. 构造建表语句 3. 倒入数据 一、查看 parquet 内容和结构 下载地址 "社区工具" "GitHub 地址" 命令 1. 查看结构: 2. 查看内容: parquet 和 hive 的 field 类 阅读全文
posted @ 2018-06-23 10:01 削微寒 阅读(23477) 评论(0) 推荐(0) 编辑