python中利用pandas读写csv文件

问题1：错误提示：UnicodeDecodeError: 'ascii' codec can't decode byte 0xb8

原因：含有中文字符

import pandas

pandas.read_csv(r'C:\test.csv',encoding='gbk')

问题2：将DataFrame格式的文件保存为csv格式，比如，DF变量为DataFrame格式的数据

DF.to_csv(r'C:\test.csv',encoding='gbk')

问题3：将特定格式的字符串保存为csv文件，比如

string_data = "1111,2222,242424,,55325,36666,112414" 
pd_data = pd.Series(string_data)
pd_data_expend = pd_data.str.split(",", expand=True)
pd_data.shape
pd_data_expend.shape

问题4：如何删除DataFrame存在重复数据？

import pandas as pd

DataFrame.drop_duplicates()

问题5：to_csv保存的时候，如何隐藏行和列的头文件？

import pandas as pd

DataFrame.to_csv(r"*\test.csv", header=False, index=False)

问题6：dict的keys具有无序的特性，如何保证dict转为dataframe数据时，按照制定的列进行排列？比如Data ={'col2': [3, 4], 'col4': [1, 2]}

import pandas as pd

Data = {'col2': [3, 4], 'col4': [1, 2]}
pd.DataFrame(Data)

输出结果：

col2 col4
0 3 1
1 4 2

import pandas as pd

Data = {'col2': [3, 4], 'col4': [1, 2]}
pd.DataFrame(Data, columns=["col4","col2"])

输出结果：

col4 col2
0 1 3
1 2 4

如果columns中的知道的字符串不存在，将自动赋值为NAN

import pandas as pd
Data = {'col2': [3, 4], 'col4': [1, 2]}
pd.DataFrame(Data, columns=["col4","col2", "col10"])

输出结果为：

col4 col2 col10
0 1 3 NaN
1 2 4 NaN

posted @ 2018-01-15 17:31 ystwyfe 阅读(28934) 评论(0) 编辑收藏举报

刷新页面返回顶部

ystwyfe

python中利用pandas读写csv文件

公告