摘要: 数据处理框架 基于内存、线程 特点:快速、易用、通用、运行在很多地方 产生背景: mapreduce的局限性: 1)代码繁琐 2)只能够支持map和reduce方法 3)执行效率低下 4)不适合迭代多次、交互式、流式的处理 框架的多样化: 1)批处理(离线处理):mapreduce、hive、pig 阅读全文
posted @ 2020-05-18 16:14 自由的射手 阅读(134) 评论(0) 推荐(0) 编辑
摘要: Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred 阅读全文
posted @ 2020-05-18 15:05 自由的射手 阅读(107) 评论(0) 推荐(0) 编辑