python基础:字符编码问题三个不可见的字符(0xEF 0xBB 0xBF,即BOM)
一、用utf-8格式保存的txt文件等,如何去掉BOM头
Windows系统的txt文件在使用utf-8编码保存时会默认在文件开头插入三个不可见的字符(0xEF 0xBB 0xBF)称为BOM头,这个BOM头在python的codecs库中已经定义为常量(codecs.BOM_UTF8)
方法一:utf8temp.txt保存时选择utf-8保存
1 import codecs 2 data=open("utf8temp.txt",'r',encoding='utf-8').read() 3 data=data.encode(encoding='utf-8') 4 print(data) 5 #print("中文".encode(encoding='utf-8')) 6 print(len(data)) 7 if data[:3]==codecs.BOM_UTF8: 8 data=data[3:] 9 print(data.decode(encoding='utf-8'))
输出如下:
b'\xef\xbb\xbf\xe4\xb8\xad\xe6\x96\x87'
9
中文
方法二:
1 with open("./temp.txt","r",encoding='utf-8') as f: 2 flag=1 3 for line in f: 4 if flag==1: 5 line=line[1:]#去掉txt格式为utf-8会在文件第一行开头插入 6 # 三个不可见的字符(0xEF 0xBB 0xBF)--(‘.’) 7 flag=0 8 print(line)
方法三:直接用第三方软件去掉BOM头,用notepad++打开txt文件,选择编码...without BOM,点击保存
标签:
python基础
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)