[Python]python去除两个txt文件的重复词汇 python 2020.2.10
两个txt文件词汇,用换行符分隔。可以用代码将要处理的文件去掉另一个文件所包含的重复内容。
如:
a.txt内容为:
衡山
泰山
西湖
紫禁城
b.txt内容为:
泰山
衡山
长白山
张三丰
将a.txt设为要处理的文件,将b.txt设为字典,则输出的c.txt文件为
c.txt
西湖
紫禁城
代码如下:
1 import csv 2 import re 3 import io 4 5 #创建字典 6 def dictlist(filepath): 7 dicts = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] 8 return dicts 9 10 dicts = dictlist('E://word2.txt') # 这里去重词的路径 11 f2=open("E:/word4.txt","a+",encoding='utf-8') # 这里为写入的新文件 12 f=open("E:/word3.txt","r+",encoding='utf-8') # 这里为要处理的文件 13 for line in f: 14 if line.strip() not in dicts: 15 f2.write(line.strip()+"\n") 16 f.close() 17 f2.close()
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步