08 2022 档案

摘要:pySpark RDD基本用法 RDD的全称是:Resilient Distributed Dataset (弹性分布式数据集),它有几个关键的特性: RDD是只读的,表示它的不可变性。 可以并行的操作分区集合上的所有元素。 每个RDD的内部,有5个主要特性: A list of partition 阅读全文
posted @ 2022-08-26 14:43 身带吴钩 阅读(835) 评论(0) 推荐(0)
摘要:使用python做基本的数据处理 1.常用的基本数据结构 元组、列表、字典、集合、常用的序列函数 1.1基本操作 1.1.1 元组:逗号分开的序列值。 tup = tuple (4,5,6) tup = (4,5,6) #推荐 tup = 4,5,6 (4,5,6) 虽然对象元组中存储的对象自身是可 阅读全文
posted @ 2022-08-18 15:18 身带吴钩 阅读(670) 评论(0) 推荐(0)