机器学习过程主要包括:数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分:
机器学习算法主要包括以下几类:
regression (回归)
回归:建立一个回归方程来预测目标值,用于连续型分布预测。
回归算法在很多领域得到了普遍应用,在金融方面,可以用它来做股市行情分析和预测;在产品运营方面,可以用它来做产品流量预估;在生物领域,可以用它来做蛋白结合点位预测;在交通领域,可以用它来做道路流量预警。
classification (分类)
分类:给定大量带标签的数据,计算出未知标签样本的标签取值。
比如:对客户等级进行划分,验证码识别,对水果品质自动筛选等;
在金融方面,可以用它来识别作弊用户;在交通领域,车牌识别也是一种分类应用;在产品运营领域,它可以用作流失客户的预警,提前找到那些有可能流失的客户。
clustering (聚类)
聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征。
如果给定一组样本特征 , 我们没有对应的属性值 , 而是想发掘这组样本在 维空间的分布, 比如分析哪些样本靠的更近,哪些样本之间离得很远, 这就是属于聚类问题。聚类也是分析样本的属性, 有点类似classification, 不同的就是classification 在预测之前是知道的范围, 或者说知道到底有几个类别, 而聚类是不知道属性的范围的。所以 classification 也常常被称为 supervised learning, 而clustering就被称为unsupervised learning。
比如:对客户价值和商圈做预测;
关联分析
关联分析:计算出数据之间的频繁项集合。
相关性分组或关联规则。其目的是发现哪些事情总是一起发生。
比如:对超市的货品摆放和个性化推荐做分析;
dimensionality reduction (降维)
如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
2015-07-19 gRPC 的 RoadMap 20151022 更新
2010-07-19 Apache Drupal URL重写