2019 年 3月 6 日随笔档案 - 十七楼的羊

2019年3月6日

摘要： hive说明: 1,Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能 2,hive 的效率取决于 mapreduce或者spark 3,hive将 sql语句翻译成MapReduce程序,然后YARN->HDFS 4,hive 将表结构存储于额外的数据库,例如mysql,也自带了derty数据库,启动hive之前... 阅读全文

posted @ 2019-03-06 23:45 十七楼的羊阅读(2390) 评论(0) 推荐(0) 编辑

spark 架构

摘要： spark简介: 1,spark 做为数据分析的一种平台，没有数据存储，强调的是基于内存的(相当吃内存)数据分析,内存不够也会磁盘进行计算！ 2,可以运行很多的资源管理平台之上，比如 yarnspark 的启动: 1,通过spark-shell 进行启动（Standalone模式） #整个集群的 cpu 核数,单个节点的的内存 # 指定 master 相当于提交... 阅读全文

posted @ 2019-03-06 01:22 十七楼的羊阅读(166) 评论(0) 推荐(0) 编辑

十七楼的羊

公告