【项目01】商铺数据加载及存储
【项目01】 商铺数据加载及存储
1、成功读取“商铺数据.csv”文件 2、解析数据,存成列表字典格式:[{'var1':value1,'var2':value2,'var3':values,...},...,{}] 3、数据清洗: ① comment,price两个字段清洗成数字 ② 清除字段缺失的数据 ③ commentlist 拆分成三个字段,并且清洗成数字 4、结果存为.pkl文件
数据读取
f = open('C:/Users/83759/Python数据分析师微专业_项目资料/商铺数据.csv','r',encoding='utf8')
for i in f.readlines()[:20]:
print(i.split(','))
#print(i.split(',')[-1].split(' '))
f.seek(0)
清洗数据
#创建comment、price、commentlist清洗函数
#函数式编程
def fcm(s):
if '条' in s:
return int(s.split(' ')[0])
else:
return '缺失数据'
#comment清洗函数:用空格分段,选取结果list的第一个为点评数,并且转化为整型
def fpr(s):
if '¥' in s:
return float(s.split('¥')[-1])
else:
return '缺失数据'
#print清洗函数:用¥分段,选取结果list的最后一个为人均价格,并且转化为浮点型
def fcl(s):
if len(s) == 3:
quality = float(s[0][2:])
environment = float(s[1][2:])
service = float(s[2][2:])
return [quality,environment,service]
else:
return '缺失数据'
#commentlist清洗函数:用空格分段,分别清洗出质量、环境及服务数据,并转化为浮点型
for i in f.readlines()[:10]:
cl = fcl(i.split(',')[-1].split(' '))
print(cl)
结果
pkl文件,csv文件,tsv文件 区别
(1)pkl文件:
pkl文件是python里面保存文件的一种格式,如果直接打开会显示一堆序列化的东西。
正确的打开方式如下:
import cPickle as pickle
f = open('path')
data = pickle.load(f)
print (data) #show file
1).pkl文件是python中的一种存储方式。
2)该存储方式,可以将python项目过程中用到的一些暂时变量、或者需要提取、暂存的字符串、列表、字典等数据保存起来。
3)保存方式就是保存到创建的.pkl文件里面。
4)然后需要使用的时候再 open,load。
(2)csv文件:逗号分隔符文件,可以使用excel打开