Python数据清理之解析CSV文件

 一不小心,1月份留下来的坑都两三个月了,荒草萋萋。Udacity数据分析专题已经进行到P3,但是笔记都没怎么记录。每当忘记之前的内容时,一页页重看视频真的是很耗费时间和精力,不如把视频整理成文字,哪怕是贴图!

既然是数据分析,首先要有数据。如果手头有现成的Clean数据,那是最省事儿的,直接可以进入分析阶段。但是现实中往往没有,所以需要从各种途径收集,提取需要的数据,并进行清理存储。也即如下流程:

对于从各种途径收集到的数据(表格形式、CSV、Jason、XML等格式),我们并不建议就这样直接展开分析,因为并不能保证这些数据的质量。所以先评估一下。其方法有以下几种:

表格形式我们比较熟悉,如Excel、googlesheet等,每一行代表一条记录,每一列表示一个字段,这里不多说。接下来说说CSV格式。

CSV,即Comma-Separated Values,(一般)以逗号分隔。CSV比较轻便,每行一条记录,每条记录被分隔符分割为不同的字段,纯文本格式方便读写。

 

用Python解析CSV文件

Python解析CSV文件主要是以字典的形式存储。

 

 

 

posted @ 2017-04-09 22:52  不安分的learner  阅读(2996)  评论(0编辑  收藏  举报