Python 在数据科学中的应用

1. list 的复制:

  1.1 直接复制: y = x    ==>  复制的 list 的元素更改,原 list 中的元素也更改

    

  1.2 列表赋值: y = list(x)    ==>  赋值的 list 的元素更改,原 list 中的元素不更改  

    

2. round() 函数:把一个数截取为小数点后的第n位

  

3. 对象,类型,方法

  方法:从属于对象的函数

  

  list 中的方法:

    fam.index("mon")  # 元素"mom"的索引

    fam.count(1.73)  # 元素1.73出现的次数

  str 中的方法:

    sister.capitalize()  # 把首字母转换成大写

    sister.replace('z', 'sa')  # 把z替换为sa

4. python 中的包:

  包的安装:pip.readthedocs.org/en/stable/installing/  安装 get-pip.py,终端:python3  get-pip.py 、 pip3  install  numpy

5. python 中的包 numpy:

  5.1 两个列表不能直接运算,但转为numpy的array后可以直接运算:

    

  5.2 numpy数组:元素只有一种类型

    

  5.3 numpy筛选子集:

    

  5.4 二维numpy数组  ndarray = n 维数组

       

  5.5 numpy 的基本统计学

    - 基本方法

      

    - 数据的产生:

      

6. 运用 matplotlib 来进行基本作图(数据可视化)

  - 折线图 和 散点图

    

       

  - 直方图

    

    

  - 个性化

import matplotlib.pyplot as plt

year = [1950, 1970, 1990, 2010]
pop = [2.519, 3.692, 5.263, 6.972]

plt.fill_between(year, pop, 0, color='yellow')

plt.xlabel('Year')
plt.ylabel('Population')
plt.title('World Population Projections')
plt.yticks([0, 2, 4, 6, 8, 10],
           ['0', '2B', '4B', '6B', '8B', '10B'])

plt.show()

    

7. pandas 

  - csv 文件 -> dataframe

    import pandas as pd

    brics = pd.read_csv("xxxx.csv" , index_col = 0)

  - 列的获取:

    brics["country"]  或  brics.country

  - 添加列:

    brics["on_earth"] = [1, 1, 1, 1, 1]   或

    brics["density"] = brics["population"] / brics["area"] * 1000000

  - 行的获取:

    brics.loc["BR"]

  - 元素的获取:

    brics.loc["CH", "capital"]  或  brics["capital"].loc["CH"]  或  brics.loc["CH"]["capital"]    

 

 

 

 

 

  

 

 

 

 

 

   

 

posted on 2017-02-15 13:38  你的踏板车要滑向哪里  阅读(168)  评论(0编辑  收藏  举报

导航