04 2021 档案
摘要:1. DataFrame 的创建 1.1 RDD 和 DataFrame 的区别 RDD 是一种弹性分布式数据集,Spark中的基本抽象。表示一种不可变的、分区储存的集合,可以进行并行操作 DataFrame是一种以列对数据进行分组表达的分布式集合, DataFrame等同于Spark SQL中的关
阅读全文
摘要:1. 创建 RDD 主要两种方式: sc.textFile 加载本地或集群文件系统中的数据,或者从 HDFS 文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件(Hadoop提供的 SequenceFile是
阅读全文
摘要:1. 操作系统历史 现在计算机系统是由一个或者多个处理,主存,磁盘,打印机,键盘,鼠标显示器,网络接口以及其他 I/O 设备组成的复杂系统。一个程序员不可能掌握所有系统实现的细节,为此我们就需要为计算机安装一层软件(即操作系统),其目的就是来管理以上设备。 操作系统是一个用来协调、管理和控制计算机硬
阅读全文
摘要:1. multiprocessing Python 实现多进程的模块最常用的是multiprocessing,此外还有multiprocess、pathos、concurrent.futures、pp、parallel、pprocess等模块。 1.1 multiprocessing.Process
阅读全文