2024-02-03-速通机器学习教程1-2 - 特征提取和距离-卢菁
摘要
2024-02-03 周日 家 阴
小记: 本来想着学一些奇技淫巧,纠结了好久还是吃点苦头吧,认真的从基础开始学起,这样后面做自己的应用项目才能游刃有余。
课程内容
1. 人工智能与机器学习
-
人工智能:广义,人造智能
-
机器学习:狭义,通过计算机模拟人的智能
强人工智能vs弱人工智能: 强人工智能未能落地实现,弱人工智能在很多方面是优于人类的,因此弱人工智能并不弱。 -
机器学习解决的问题:
a. 规律性
b. 平滑性: 无法求解质数,因为质数存在突变性
c. 结果不变性
关键点: 做好特征提取,特征足够多的情况下,随机便会变得确定,没有特征,确定就会变得随机。
核心: 如果项目组希望通过机器学习求解违背上述求解特征问题的研究对象时,可以直接拒绝,不然会有很大的坑的。
2. 特征向量化
关键点: 对于特征进行向量化,没有绝对的标准,因地制宜就好了,适合业务需求就可以。寻找代价最小且有效的特征向量就是一个机器学习的开始。
非必要不要为特征向量设置大小,只要存在差异就好。即便同一场景也需要评估数量级,不然构造的特征矩阵会非常稀疏,从而导致不合时宜。
3. 向量的距离
距离的基本要素:
- 同一性: d(x,x),同一点到自身的距离为 0;
- 非负性: d(x,y)>=0,距离不能小于 0;
- 对称性: d(x,y)==d(y,x)
- 直通性:d(x,y) <= d(x,z) + d(y,z),即三角形法则(由3个点组成的三角形,两边之和大于第三边)
关键点:
- 欧式距离唯一,一马平川大草原;
- 曼哈顿距离不唯一,滴滴打车路径规划;
- 切比雪夫距离: 国际象棋国王的风骚走位;
统一场景,斜着走(45度角):
欧式: 根号 2
曼哈顿: 2
切比雪夫: 1
关键点: 超长距离不敏感;
4. 向量距离和线性回归
-
欧式距离
-
杰卡尔距离: A,B 集合的交集/A,B集合的并集绝对值<=1
关键点: 电商场景中,极其稀疏的矩阵,使用杰卡尔距离推测用户的相似性;
- 余弦相似度: 二者夹角越大越不相似,二者夹角为0,则二者重合
关键点: 衡量偏科差异度
-
内积: 未归一化的相似度,角度差和长度差
-
海明距离: 对于等长字符串,计算海明距离,逐个比较各个位置的差异
-
编辑距离: 字符串增加一个距离,距离 + 1,字面意义,无法真正衡量。
5. 线性回归
- 解方程存在的问题
a. 方程过多,方程之间存在矛盾;
b. 通用性差,大量方程没有解析解;
c. 机器性能限制,因此解方程不适合工程问题;
总结
后会无期,未来可期!