Python 在数据科学中的应用
1. list 的复制:
1.1 直接复制: y = x ==> 复制的 list 的元素更改,原 list 中的元素也更改
1.2 列表赋值: y = list(x) ==> 赋值的 list 的元素更改,原 list 中的元素不更改
2. round() 函数:把一个数截取为小数点后的第n位
3. 对象,类型,方法
方法:从属于对象的函数
list 中的方法:
fam.index("mon") # 元素"mom"的索引
fam.count(1.73) # 元素1.73出现的次数
str 中的方法:
sister.capitalize() # 把首字母转换成大写
sister.replace('z', 'sa') # 把z替换为sa
4. python 中的包:
包的安装:pip.readthedocs.org/en/stable/installing/ 安装 get-pip.py,终端:python3 get-pip.py 、 pip3 install numpy
5. python 中的包 numpy:
5.1 两个列表不能直接运算,但转为numpy的array后可以直接运算:
5.2 numpy数组:元素只有一种类型
5.3 numpy筛选子集:
5.4 二维numpy数组 ndarray = n 维数组
5.5 numpy 的基本统计学
- 基本方法
- 数据的产生:
6. 运用 matplotlib 来进行基本作图(数据可视化)
- 折线图 和 散点图
- 直方图
- 个性化
import matplotlib.pyplot as plt year = [1950, 1970, 1990, 2010] pop = [2.519, 3.692, 5.263, 6.972] plt.fill_between(year, pop, 0, color='yellow') plt.xlabel('Year') plt.ylabel('Population') plt.title('World Population Projections') plt.yticks([0, 2, 4, 6, 8, 10], ['0', '2B', '4B', '6B', '8B', '10B']) plt.show()
7. pandas
- csv 文件 -> dataframe
import pandas as pd
brics = pd.read_csv("xxxx.csv" , index_col = 0)
- 列的获取:
brics["country"] 或 brics.country
- 添加列:
brics["on_earth"] = [1, 1, 1, 1, 1] 或
brics["density"] = brics["population"] / brics["area"] * 1000000
- 行的获取:
brics.loc["BR"]
- 元素的获取:
brics.loc["CH", "capital"] 或 brics["capital"].loc["CH"] 或 brics.loc["CH"]["capital"]
posted on 2017-02-15 13:38 你的踏板车要滑向哪里 阅读(170) 评论(0) 编辑 收藏 举报