08 2022 档案
摘要:pySpark RDD基本用法 RDD的全称是:Resilient Distributed Dataset (弹性分布式数据集),它有几个关键的特性: RDD是只读的,表示它的不可变性。 可以并行的操作分区集合上的所有元素。 每个RDD的内部,有5个主要特性: A list of partition
阅读全文
摘要:使用python做基本的数据处理 1.常用的基本数据结构 元组、列表、字典、集合、常用的序列函数 1.1基本操作 1.1.1 元组:逗号分开的序列值。 tup = tuple (4,5,6) tup = (4,5,6) #推荐 tup = 4,5,6 (4,5,6) 虽然对象元组中存储的对象自身是可
阅读全文
浙公网安备 33010602011771号