随笔 - 7  文章 - 0  评论 - 0  阅读 - 290

5.RDD操作综合实例

    1. 准备文件
    2. 读文件创建RDD

       

       

    3. 分词

       

       

    4. 排除大小写lower(),map()

       

       


      标点符号re.split(pattern,str),flatMap(),

       

       


      停用词,可网盘下载stopwords.txt,filter(),

       

       

       

       

       

       


      长度小于2的词filter()

       

       

       

    5. 统计词频

       

       

    6. 按词频排序

       

       

    7. 输出到文件

       

       

    8. 查看结果

      B. 一句话实现:文件入文件出

       

       

       

       

      二、求Top值

       

       

       

       

posted on   敖呜  阅读(39)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示