末日搭车指南
面向人生编程

导航

 

2020年2月20日

摘要: shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节 阅读全文
posted @ 2020-02-20 18:55 末日搭车指南 阅读(468) 评论(0) 推荐(0) 编辑
 
摘要: https://blog.csdn.net/buracag_mc/article/details/100155599 ML Pipelines提供了一组基于DataFrame构建的统一的高级API,可帮助用户创建和调整实用的机器学习流程。 阅读全文
posted @ 2020-02-20 06:16 末日搭车指南 阅读(242) 评论(0) 推荐(0) 编辑
 
摘要: https://blog.csdn.net/weixin_43087634/article/details/84398036 2、什么是DataFrame 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 3、RDD和DataFrame的区别 Da 阅读全文
posted @ 2020-02-20 05:54 末日搭车指南 阅读(393) 评论(0) 推荐(0) 编辑
 
摘要: RDD 的操作函数(operation)主要分为2种类型 Transformation 和 Action. 在这里只读表示当你对一个 RDD 进行了操作,那么结果将会是一个新的 RDD, 这种情况放在代码里,假设变换前后都是使用同一个变量表示这一 RDD, RDD 里面的数据并不是真实的数据,而是一 阅读全文
posted @ 2020-02-20 04:34 末日搭车指南 阅读(349) 评论(0) 推荐(0) 编辑
 
摘要: 1.const定义常量 在C语言中,const可以用来定义的一个常量,在变量名前加上const即可。 int const a; 定义了一个a的整数常量,且a的值不能被修改。如果要修改a的值,有以下两种方法。 方法一 int const a=100; 在定义时,就对它进行初始化 方法二 在函数中声明c 阅读全文
posted @ 2020-02-20 01:13 末日搭车指南 阅读(198) 评论(0) 推荐(0) 编辑