27、机器学习的入门了解

机器学习

让机器开始学习，它比人主动 😂

最终的目的：验证，预测人类猜想是否正确。

数据——》规律——》验证——》结果——》与实际对比
以上过程重复循环，直到结果,得到认可

在开始思考之前，先整理一下数据的分类；
数据的类别：数字，时间，文本，中文，英文，符号，图形，图像，视频，声音...
数据的联系：连续，离散，类别，无意义...
数据的结构：结构化，非结构化，半结构化
数据的层次：原始（明细）数据，汇总数据
...

当‘文本=中文’利用jieba进行分词，然后sklearn.feature.extraction.text.CountVectionzer().fit_transform(..) 进行特征处理；或者使用sklearn.feature.extraction.text.TfindVectionrizer().fit_transform(..)，进行处理。
当‘文本=英文’，同上，不过不用分词。

判断是否存在缺失值，利用pandas 来处理缺失值
- 缺失值：删除
- 缺失值：填补，一般情况利用，按列填补均值，中位数等
数字：归一化，将数据映射成0——1之间的数： sklearn.preprocessing.MinMaxScalar().fit_transform(...)
- 归一化，易收到异常值或极端值的影响
数字：标准化，将数据变换成均值为0，标准差为1的数： sklearn.preprocessing.StandardScalar().fit_tarnsform(...)

略，暂未接触到，待后期更新

1 进行特征选择，只选取有用的
2 进行主成分分析

1 利用放差选择。放差表示数据的稳定性，若特征值的方差波动为0，表示数据都相同，对最后的预测结果，可忽略不计
2 神经网络：略
3 ...

1 pca ：一种简化数据特征的技术，信它，用就好了。 sklearn.decomposition.PCA().fit_transform(...)
2 ...

posted @ 2021-01-10 22:36 hefany 阅读(82) 评论(0) 收藏举报

刷新页面返回顶部