02_机器学习概述、dataSet、特征工程【day1】

0、Xmind

1、机器学习概述

1.what is ML?

　　data 规律预测

2. why need the ML?

2.what feild of ML?

4.what worth of ML?

　　替换手动，减少企业成本

2、数据集的结构

1. data来源

　　企业日益积累的大量数据（互联网公司更为显著）

　　政府掌握的各种数据

　　科研机构的实验数据

　　… ...

2.data of ML

　　文件格式：csv

　　myql: 1) 性能瓶颈、读取seed

　　　　　2) 格式of data

　　pandas: read tool

　　numpy: 释放了GIL (cpython中的历史遗留，Jpython无)

3.useful dataset

　　Kaggle网址：https://www.kaggle.com/datasets

　　UCI数据集网址： http://archive.ics.uci.edu/ml/

　　scikit-learn网址：http://scikit-learn.org/stable/datasets/index.html#datasets

4.dataset的结构组成

　　结构：特征值+目标值

　　dataFrame

5.data的特征处理：pandas、sklearn

　dataFrame 缺失值，data transform

　ML中的data：重复值？ don't need to 去重

　　皮肤的颜色如何转换成计算机识别的data？

　　　　sklearn: 对特征的处理

　　　　panads：read tool

3、数据的特征工程

1、特征工程的影响

　　why 不同teams 的score 不同？

　　特征工程影响：the same 算法，the same dataset，“特征处理”不同，scores不同

2、what is 特征工程

　　提高效果

3、what mean of 特征工程

　　直接影响预测的result

4、scikit-learn工具介绍

　　1) scikit-learn库的安装

　　　　　　python、ML算法、文档、易上手、丰富api、0.19

　　2) 安装

创建一个基于Python3的虚拟环境(可以在你自己已有的虚拟环境中)：
    mkvirtualenv  –p  /usr/bin/python3.5  ml3

在ubuntu的虚拟环境当中运行以下命令
    pip3 install Scikit-learn 

然后通过导入命令查看是否可以使用：
    import sklearn

　　注：安装scikit-learn需要Numpy,pandas等库

　　pip3 install numpy

　　 pip3 install pandas

　　3) 各种算法

posted @ 2019-04-10 09:55 一分耕耘一分收获阅读(193) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

less is more