摘要:
缺交: https://www.cnblogs.com/2895675017qqcom/p/14858748.html https://www.cnblogs.com/2895675017qqcom/p/14858756.html 原因:不好意思忘了。 大作业: 1.选择使用什么数据,有哪些字段,多 阅读全文
摘要:
1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] 阅读全文
摘要:
1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() 好文要 阅读全文