摘要:
hive说明: 1,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 2,hive 的效率取决于 mapreduce或者spark 3,hive将 sql语句翻译成MapReduce程序,然后YARN->HDFS 4,hive 将表结构存储于额外的数据库,例如mysql,也自带了derty数据库,启动hive之前... 阅读全文
摘要:
spark简介: 1,spark 做为数据分析的一种平台,没有数据存储,强调的是基于内存的(相当吃内存)数据分析,内存不够也会磁盘进行计算! 2,可以运行很多的资源管理平台之上,比如 yarnspark 的启动: 1,通过spark-shell 进行启动(Standalone模式) #整个集群的 cpu 核数,单个节点的的内存 # 指定 master 相当于提交... 阅读全文