大数据学习之-the king of bigdata

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy matplotlib pandas scikit-learn
notebook tensorflow PyQt5 xlrd xlwt tables openpyxl jieba gensim wordcloud snownlp xgboost

pip install gensim==3.7.1

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
学习内容:
1.数据清洗
2.数据可视化
3.数据分析,文本挖掘
4.建模测试
数据分析:
pandas:数据预处理和数据分析
数据可视化:
matplotlib:python底层会画图
echarts/pyecharts:web数据可视化,js库
seaborn:python上层数据可视化
ploty/bokeh:python交互式可视化库
mayavi:python3d绘画库
科学计算:
numpy:数据计算库,顶层,基础,n维数组容器
sympy:符号计算库
scipy:科学计算函数库集成大量科学计算算法
statsmodels:统计建模
文本分析:
jieba:中文分词
wordcloud:词云
snowNLP:情感分析
gensim:主题建模,文本相似度度量
机器学习:
scikit-learn:机器学习
深度学习:
keras/tensorflow:深度学习
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
import matplotlib
--->全部载入浪费内
--->import matplotlib.pyplot as plt
--->plt.plot([1,2,3,4,5],[3,5,1,8,4])
plt.style.use('seaborn')
plt.title('hello你好')
plt.rcParams['font.family'] = ['Arial Unicode MS', 'Microsoft Yahei', 'SimHei', 'sans-serif'] #全局设置迟滞中文字体
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
#plt.show() #脚本显示必须写

from pylab import *
--->等同于%pylab inline
--->同时载入numpy和matplotlib
--->等同于 import numpy,import matplotlib.pyplot
plt.rcParams['font.family'] = ['Arial Unicode MS', 'Microsoft Yahei', 'SimHei', 'sans-serif'] #全局设置迟滞中文字体
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
plt.show()
--->在脚本里要写这个命令
load load.py
--->显示出代码
内联载入:
--->%matplotlib inline ; plt.plot([12,3,4,5])
GUI显示:
--->%matplotlib qt5; plt.plot([12,3,4,5])
内联GUI载入:
--->%matplotlib notebook; plt.plot([12,3,4,5])

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
import numpy as np
--->矢量运算,费空间,节省时间,又叫向量化运算,是一种并行运算方式
--->没有for循环,内存连续存储,数据类型一致
--->
x = [1,3,5]
y = [2,4,6]
npx = np.array(x)
npy = np.array(y)
z = npx**2 + npy**3
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
pandas
--->数据清洗,数据可视化,数据分析
0维度:单个变量,age = 1 ,类似于点
1维度:数学上列表有几个值,就是几维, age = [1,2,3] 这就是以为,它把单个变量抽象化一个整体,类似于线
2维度:matrix矩阵 martix = [['rocky',1,100,true],['harden',0,100,true]] ,2维矩阵,类似于面,数据表格
3维度:json加括号,多一层括号,多一个维度
a = [1,2,3,4,5]
--->1维度,编程角度
--->5维度。数学角度
Series:
--->一维度,dict,list
--->series = pd.Series([1,2,3.4],index=[1,2,3,4])
--->series = pd.Series([{'name':'a','age':12})
DataFrame:
--->二维度,二维度列表[[],[]],二维度
--->dataframe = pd.DataFrame([[1,2,3],[4,5,6]],index=[1,2],columns=['name','age','score'])
--->dataframe = pd.DataFrame( { 'name':['kobe','tmac'],'age':[41,40]})
层次化索引表示三维:
--->增加一层行索引
--->dataframe = pd.DataFrame(data_dict,index=[['high','high','low'],[0,1,2]])

posted @ 2020-09-20 18:10  亚洲哈登  阅读(130)  评论(0编辑  收藏  举报