27、机器学习的入门了解
机器学习
让机器开始学习,它比人主动 😂
最终的目的:验证,预测人类猜想是否正确。
基本逻辑
数据——》规律——》验证——》结果——》与实际对比
以上过程重复循环,直到结果,得到认可
在机器学习中,机器需要什么样的数据?
- 数据包含:特征值 , 目标值
数据该如何处理?
在开始思考之前,先整理一下数据的分类;
数据的类别:数字,时间,文本,中文,英文,符号,图形,图像,视频,声音...
数据的联系:连续,离散,类别,无意义...
数据的结构:结构化,非结构化 ,半结构化
数据的层次:原始(明细)数据,汇总数据
...
当特征值为文本时,数据该如何处理?
- 当‘文本=中文’利用
jieba
进行分词 ,然后sklearn.feature.extraction.text.CountVectionzer().fit_transform(..) 进行特征处理;或者使用sklearn.feature.extraction.text.TfindVectionrizer().fit_transform(..),进行处理。 - 当‘文本=英文’,同上,不过不用分词。
当特征值为数字时,数据该如何处理?
- 判断是否存在缺失值,利用pandas 来处理缺失值
- 缺失值: 删除
- 缺失值: 填补 , 一般情况利用,按列填补均值 ,中位数等
- 数字:归一化 , 将数据映射成0——1之间的数: sklearn.preprocessing.MinMaxScalar().fit_transform(...)
- 归一化,易收到异常值或极端值的影响
- 数字:标准化 , 将数据变换成均值为0,标准差为1的数: sklearn.preprocessing.StandardScalar().fit_tarnsform(...)
当特征值为其他类型,该如何处理?
略,暂未接触到,待后期更新
特征值很多的时候,该如何处理?
1 进行特征选择,只选取有用的
2 进行主成分分析
特征选择,有那些方法?
1 利用放差选择。放差表示数据的稳定性,若特征值的方差波动为0,表示数据都相同,对最后的预测结果,可忽略不计
2 神经网络:略
3 ...
主成分分析,有那些方法?
1 pca :一种简化数据特征的技术,信它,用就好了。 sklearn.decomposition.PCA().fit_transform(...)
2 ...