data_analysis 第一课

1.anaconda的安装与使用

在官网下载anaconda的客户端,因为python有2和3之分,所以有两个版本可以供选择,由于该课程使用2作为开发工具,选择anaconda2下载安装。

安装好之后,可以使用 conda update conda 来进行对anaconda进行更新。

2.启动jupyter notebook

在anaconda2的命令窗口上使用cd命令进入放“.ipynb”文件的目录,然后使用 jupyter notebook xx.ipynb 命令启动jupyter。(使用tab键可以补全)

 

3.如何使用jupyter notebook

jupyter notebook 作为课程教学之用非常方便,可以编辑文档,可以运行代码,掌握jupyter notebook 的使用方法和快捷键可以帮你事半功倍。

jupyter notebook 的快捷键,在界面中,按“H”键可以查看有哪些快捷键。

4.打开csv文件,进行数据处理

在处理csv文件时,我们需要进行模块导入,使用unicodecsv模块

然后定义一个reader函数,读取csv文件,例如:

def reader(file_csv):
  with open(file_csv,'rb') as f:
    reader = unicodecsv.DictReader(f)
    return list(reader)
enrollments = reader('enrollments.csv')

 

之后对读取的数据进行预处理:

from datetime import datetime as dt

# 将字符串格式的时间转为 Python datetime 类型的时间。
# 如果没有时间字符串传入,返回 None

def parse_date(date):
  if date == '':
    return None
  else:
    return dt.strptime(date, '%Y-%m-%d')

# 将可能是空字符串或字符串类型的数据转为 整型 或 None。

def parse_maybe_int(i):
  if i == '':
    return None
  else:
    return int(i)

# 清理 enrollments 表格中的数据类型

for enrollment in enrollments:
  enrollment['cancel_date'] = parse_date(enrollment['cancel_date'])
  enrollment['days_to_cancel'] = parse_maybe_int(enrollment['days_to_cancel'])
  enrollment['is_canceled'] = enrollment['is_canceled'] == 'True'
  enrollment['is_udacity'] = enrollment['is_udacity'] == 'True'
  enrollment['join_date'] = parse_date(enrollment['join_date'])

posted @ 2017-08-13 23:10  Jerry199  阅读(138)  评论(0编辑  收藏  举报