摘要: ​ Spark任务调度机制论述 在生产环境下,Spark集群的部署方式一般为YARN-Cluster模式。 Driver线程主要是初始化SparkContext对象,准备运行所需的上下文,然后一方面保持与ApplicationMaster的RPC连接,通过ApplicationMaster申请资源, 阅读全文
posted @ 2022-03-29 10:30 Linux运维阿铭 阅读(649) 评论(0) 推荐(0) 编辑
摘要: 一、Impala介绍 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性 阅读全文
posted @ 2022-03-29 10:25 Linux运维阿铭 阅读(299) 评论(0) 推荐(0) 编辑
摘要: ​简介 之前我们都是通过shell来完成对数据库的各种操作的,在开发中大部分时候我们都需要通过程序来完成对数据库的操作。 而Mongoose就是一个让我们可以通过Node来操作MongoDB的模块。 Mongoose是一个对象文档模型(ODM)库,它对Node原生的MongoDB模块进行了进一步的优 阅读全文
posted @ 2022-03-29 10:20 Linux运维阿铭 阅读(303) 评论(0) 推荐(0) 编辑