【项目01】商铺数据加载及存储

 

【项目01】 商铺数据加载及存储

目标:

1、成功读取“商铺数据.csv”文件 2、解析数据,存成列表字典格式:[{'var1':value1,'var2':value2,'var3':values,...},...,{}] 3、数据清洗: ① comment,price两个字段清洗成数字 ② 清除字段缺失的数据 ③ commentlist 拆分成三个字段,并且清洗成数字 4、结果存为.pkl文件

 

数据读取

f = open('C:/Users/83759/Python数据分析师微专业_项目资料/商铺数据.csv','r',encoding='utf8')
for i in f.readlines()[:20]:
print(i.split(','))
#print(i.split(',')[-1].split('           '))
f.seek(0)

清洗数据

#创建comment、price、commentlist清洗函数

#函数式编程

def fcm(s):
  if '条' in s:
      return int(s.split(' ')[0])
  else:
      return '缺失数据'

#comment清洗函数:用空格分段,选取结果list的第一个为点评数,并且转化为整型

def fpr(s):
  if '¥' in s:
      return float(s.split('¥')[-1])
  else:
      return '缺失数据'

#print清洗函数:用¥分段,选取结果list的最后一个为人均价格,并且转化为浮点型

def fcl(s):
  if len(s) == 3:
      quality = float(s[0][2:])
      environment = float(s[1][2:])
      service = float(s[2][2:])
      return [quality,environment,service]
  else:
      return '缺失数据'

#commentlist清洗函数:用空格分段,分别清洗出质量、环境及服务数据,并转化为浮点型

for i in f.readlines()[:10]:
  cl = fcl(i.split(',')[-1].split('           '))
  print(cl)

结果

image-20200306192157269

 

pkl文件,csv文件,tsv文件 区别

(1)pkl文件:

pkl文件是python里面保存文件的一种格式,如果直接打开会显示一堆序列化的东西。

正确的打开方式如下:

import cPickle as pickle  
f = open('path')  
data = pickle.load(f)  
print (data)   #show file  

1).pkl文件是python中的一种存储方式。

  2)该存储方式,可以将python项目过程中用到的一些暂时变量、或者需要提取、暂存的字符串、列表、字典等数据保存起来。

  3)保存方式就是保存到创建的.pkl文件里面。

  4)然后需要使用的时候再 open,load。

(2)csv文件:逗号分隔符文件,可以使用excel打开

(3)tsv文件:制表符Tab分隔文件,可以使用excel打开

posted @ 2020-03-06 21:35  木子酱  阅读(460)  评论(0编辑  收藏  举报