机器学习讨论组纪要1
机器学习分类
精确学习 符号学习: 例子: 爸爸*爸爸=爷爷。 80 90 年代研究热点。现在基本已经不再研究。
模糊学习 归纳,基于数据做统计。因为大数据技术的发展而变得火热。
模糊学习的分类
数据-归纳,训练-模型-对新的数据,得出结论
督导学习 无督导学习
督导学习 标记
无督导 聚类
常见的机器学习的方法
线性回归是最基本的机器学习算法
房屋面积 房价 一组数据。 给出新的房屋面积,预测房价
回归与分类
Regression Classification
逻辑回归(分类) 置信度
线性回归可以通过sigmoid与逻辑回归统一起来。
神经元:每一个神经元就是一个线性回归函数。
神经网络:神经元连在一起就是神经网络
深度学习: 神经网络的层数,一般的机器学习的神经网络的层数大概在3 4 层,而深度学习的深度神经元网络可以达到70 80 层,仅模型本身,就可以达到几个G的大小。
神经网络,根基还是线性回归
决策树
概率方法 : 贝叶斯网络?
简单的机器学习case
email 优先级判断问题:
线性可分问题,也就是说很多问题可能不是一个线性回归可以解决的问题:
feature维度越高,越大可能线性可分。
可以采用online逻辑回归算法(PA2),判断email是否是高优先级的。
一个common的问题:如何针对不同的场景(输入数据的特点),选择不同的机器学习的算法?
feature生成 选取 ,目前还是依赖于人的直观选择
但是这些选取的feature维度可以使用一些方法进行处理,比如:升维度 降维度(防止过度拟合,把相近的feature cluster) 离散化(年龄划分为青年中年老年等)
模型的调优:
训练集 验证集 测试集
调优的指标:
查准率 查全率 误分类代价
有了模型,才可以真正进行code层级的机器学习,从而涉及到下面的问题:
编程语言?机器学习平台
常见的平台:Spark MLlib
常见的语言:Scala Java python R\
-------------------------- update -----------------------
与王刚的讨论:
现在大数据与机器学习的研究,主要分成了数据挖掘和机器学习两个部分。
现在对人工大脑的研究,主要集中在了深度神经元网络上。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?