2018年8月22日

摘要: Spark sql 对SQL语句的处理,先将SQL语句进行解析(parse)形成一个tree,然后使用Rule对Tree进行绑定,优化等处理过程,通过模式匹配对不同类型的节点采用不同操作。查询优化器是Catalyst,它负责处理查询语句的解析,绑定,优化和生成物理计划等过程,Catalyst是Spa 阅读全文

posted @ 2018-08-22 10:09 打杂滴 阅读(518) 评论(0) 推荐(0) 编辑

摘要: dataframe以RDD为基础的分布式数据集,与RDD的区别是,带有Schema元数据,即DF所表示的二维表数据集的每一列带有名称和类型,好处:精简代码;提升执行效率;减少数据读取; 如果不配置spark.deploy.recoveryMode选项为ZOOKEEPER,那么集群的所有运行数据在Ma 阅读全文

posted @ 2018-08-22 09:53 打杂滴 阅读(314) 评论(0) 推荐(0) 编辑


Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes