pandas读取csv文件中文乱码问题

1、为什么会出现乱码问题,用什么方式编码就用什么方式解码,由于csv不是用的utf-8编码,故不能用它解码。

常用的编码方式有 utf-8,ISO-8859-1、GB18030等。

 

2、中文乱码原因:

一般的csv文件如果使用 

data = pd.read_csv("data__361_46.csv", encoding='utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte

若此时改为

data = pd.read_csv('sample.csv', encoding='ISO-8859-1')

此时不再报错,但是中文字符解析异常,出现下列错误:

 

 3、有两种解决办法:

(1)用记事本打开csv文件,另存为,编码格式改为utf-8然后用utf-8读取文件。

(2)用 csv编码的 “GB18030” 解码方式读取文件。

另外,由于python不支持中文,故一般在所有python代码开头第一行加上#coding=utf-8 

posted @ 2019-11-28 20:45  simpleDi  阅读(12001)  评论(0编辑  收藏  举报