data_analysis 第一课

1.anaconda的安装与使用

在官网下载anaconda的客户端，因为python有2和3之分，所以有两个版本可以供选择，由于该课程使用2作为开发工具，选择anaconda2下载安装。

安装好之后，可以使用 conda update conda 来进行对anaconda进行更新。

2.启动jupyter notebook

在anaconda2的命令窗口上使用cd命令进入放“.ipynb”文件的目录，然后使用 jupyter notebook xx.ipynb 命令启动jupyter。（使用tab键可以补全）

3.如何使用jupyter notebook

jupyter notebook 作为课程教学之用非常方便，可以编辑文档，可以运行代码，掌握jupyter notebook 的使用方法和快捷键可以帮你事半功倍。

jupyter notebook 的快捷键，在界面中，按“H”键可以查看有哪些快捷键。

4.打开csv文件，进行数据处理

在处理csv文件时，我们需要进行模块导入，使用unicodecsv模块

然后定义一个reader函数，读取csv文件，例如：

def reader(file_csv):
　　with open(file_csv,'rb') as f:
　　　　reader = unicodecsv.DictReader(f)
　　　　return list(reader)
enrollments = reader('enrollments.csv')

之后对读取的数据进行预处理：

from datetime import datetime as dt

# 将字符串格式的时间转为 Python datetime 类型的时间。
# 如果没有时间字符串传入，返回 None

def parse_date(date):
　　if date == '':
　　　　return None
　　else:
　　　　return dt.strptime(date, '%Y-%m-%d')

# 将可能是空字符串或字符串类型的数据转为整型或 None。

def parse_maybe_int(i):
　　if i == '':
　　　　return None
　　else:
　　　　return int(i)

# 清理 enrollments 表格中的数据类型

for enrollment in enrollments:
　　enrollment['cancel_date'] = parse_date(enrollment['cancel_date'])
　　enrollment['days_to_cancel'] = parse_maybe_int(enrollment['days_to_cancel'])
　　enrollment['is_canceled'] = enrollment['is_canceled'] == 'True'
　　enrollment['is_udacity'] = enrollment['is_udacity'] == 'True'
　　enrollment['join_date'] = parse_date(enrollment['join_date'])

posted @ 2017-08-13 23:10 Jerry199 阅读(138) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

data_analysis 第一课

公告