摘要: 一、RDD创建 先启动pyspark 从本地文件系统中加载数据创建RDD,先启动hdfs,再上传 在hdfs中查看 停用hdfs 二、RDD的操作 1、转换操作 map(func)显式定义函数lambda函数 2、行动操作 3、flatMap(func) 分词 单词映射成键值对 4、reduceBy 阅读全文
posted @ 2022-03-16 11:16 伽森 阅读(29) 评论(0) 推荐(0) 编辑