27、机器学习的入门了解

机器学习

让机器开始学习,它比人主动 😂

最终的目的:验证,预测人类猜想是否正确。

基本逻辑

数据——》规律——》验证——》结果——》与实际对比
以上过程重复循环,直到结果,得到认可

在机器学习中,机器需要什么样的数据?

  • 数据包含:特征值 , 目标值

数据该如何处理?

在开始思考之前,先整理一下数据的分类;
数据的类别:数字,时间,文本,中文,英文,符号,图形,图像,视频,声音...
数据的联系:连续,离散,类别,无意义...
数据的结构:结构化,非结构化 ,半结构化
数据的层次:原始(明细)数据,汇总数据
...

当特征值为文本时,数据该如何处理?

  1. 当‘文本=中文’利用jieba进行分词 ,然后sklearn.feature.extraction.text.CountVectionzer().fit_transform(..) 进行特征处理;或者使用sklearn.feature.extraction.text.TfindVectionrizer().fit_transform(..),进行处理。
  2. 当‘文本=英文’,同上,不过不用分词。

当特征值为数字时,数据该如何处理?

  1. 判断是否存在缺失值,利用pandas 来处理缺失值
    • 缺失值: 删除
    • 缺失值: 填补 , 一般情况利用,按列填补均值 ,中位数等
  2. 数字:归一化 , 将数据映射成0——1之间的数: sklearn.preprocessing.MinMaxScalar().fit_transform(...)
    • 归一化,易收到异常值或极端值的影响
  3. 数字:标准化 , 将数据变换成均值为0,标准差为1的数: sklearn.preprocessing.StandardScalar().fit_tarnsform(...)

当特征值为其他类型,该如何处理?

略,暂未接触到,待后期更新

特征值很多的时候,该如何处理?

1 进行特征选择,只选取有用的
2 进行主成分分析

特征选择,有那些方法?

1 利用放差选择。放差表示数据的稳定性,若特征值的方差波动为0,表示数据都相同,对最后的预测结果,可忽略不计
2 神经网络:略
3 ...

主成分分析,有那些方法?

1 pca :一种简化数据特征的技术,信它,用就好了。 sklearn.decomposition.PCA().fit_transform(...)
2 ...

posted @ 2021-01-10 22:36  hefany  阅读(50)  评论(0编辑  收藏  举报