2018 年 6月 23 日随笔档案 - 削微寒

2018年6月23日

摘要： "如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系？" 大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用阅读全文

posted @ 2018-06-23 10:07 削微寒阅读(805) 评论(0) 推荐(0) 编辑

pyhive 连接 Hive 时错误

摘要：一、User: xx is not allowed to impersonate xxx' 解决办法：修改文件，加入下面的内容后重启 hadoop 。 Tips：注意是不是二、ACCEPTED: waiting for AM container to be allocated, launch 阅读全文

posted @ 2018-06-23 10:05 削微寒阅读(2041) 评论(0) 推荐(0) 编辑

Presto 常用配置及操作

摘要：一、介绍 Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。推荐阅读 "Presto实现原理和美团的使用实践" 二、安装 2.1 安装步骤 1. 阅读全文

posted @ 2018-06-23 10:04 削微寒阅读(2836) 评论(0) 推荐(0) 编辑

Hive 导入 parquet 格式数据

摘要： Hive 导入 parquet 数据步骤如下： 1. 查看 parquet 文件的格式 2. 构造建表语句 3. 倒入数据一、查看 parquet 内容和结构下载地址 "社区工具" "GitHub 地址" 命令 1. 查看结构： 2. 查看内容： parquet 和 hive 的 field 类阅读全文

posted @ 2018-06-23 10:01 削微寒阅读(23477) 评论(0) 推荐(0) 编辑

削微寒的程序员之路

谦逊、专注，才能成长。

公告