安装Spark与Python代码练习

1.基础环境--环境准备检查

 

 

 

 

 

 

 2.环境变量

 

 

 

3.运行pyspark

 

 

 

4.python代码测试

 

 

 

二、Python编程练习:英文文本的词频统计

1.准备文本文件

通过终端命令创建文件,一个放英文内容,一是python代码文件

 

 

 

 

2.读文件

 # 1 获取文本
    f = open("这里修改为你要读取文件的地址", "r",encoding='UTF-8')
    txt = f.read()
    txt = txt.lower()  # 将所有字符转换为小写
    f.close()

3.划分单词

# 2 划分单词
    array = re.split('[ ,.\n]', txt)
    #print('分词结果',array)

4.词频统计

# 3 词频统计
    dic = {}
    for i in array:
        if i not in dic:
            dic[i] = 1
        else:
            dic[i] += 1

5.输出出现频率最高的100个单词

  print('\n')
     print(order_dict1(dic, 100),)

 

6.完整代码

import os
import re

def order_dict(dicts, n):
    result = []
    result1 = []
    p = sorted([(k, v) for k, v in dicts.items()], reverse=True)
    s = set()
    for i in p:
        s.add(i[1])
    for i in sorted(s, reverse=True)[:n]:
        for j in p:
            if j[1] == i:
                result.append(j)
    for r in result:
        result1.append(r[0])

    return result1


def order_dict1(dicts, n):  # 截取排序结果想要的部分返回就好了
    list1 = sorted(dicts.items(), key=lambda x: x[1])

    return list1[-1:-(n + 1):-1]
    # return list1[-2:-(n+2):-1]   #去除统计结果为""的情况(前面步骤中,字典没有提前""去掉的情况下)


if __name__ == "__main__":
    # 1 获取文本
    f = open("这里修改为你要读取文件的地址", "r",encoding='UTF-8')
    txt = f.read()
    txt = txt.lower()  # 将所有字符转换为小写
    f.close()

    # 2 划分单词
    array = re.split('[ ,.\n]', txt)
    #print('分词结果',array)

    # 3 词频统计
    dic = {}
    for i in array:
        if i not in dic:
            dic[i] = 1
        else:
            dic[i] += 1

    # 4 输出出现频率最高的100个单词
    print('\n')
    print(order_dict1(dic, 100),)

7.结果

 

 

 

posted @ 2022-03-03 00:21  hetianming  阅读(31)  评论(0编辑  收藏  举报