机器学习 一丢丢基础

人工智能必备三要素
数据
算法
计算力
cpu io密集型任务
gpu 计算密集型
tpu 谷歌

人工智能》机器学习》深度学习--包含
1950 1980 2010
关系
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方向发展而来

起源 艾伦麦席森图灵 计算机之父 图灵测试
达特茅斯会议 --1956年 人工智能元年-- 用机器来模仿人类学习以及其他方向的 发展

分支
计算机视觉
NLP 自然语言处理
覆盖文本发掘/分类,机器翻译,语音识别
语音识别 1.语音转文本
2.文本转语音(TTS)
难题:1.声纹识别 类似指纹识别
2.鸡尾酒会效应 唤醒词
文本挖掘/分类
句法分析,情绪检测,垃圾信息检测
瓶颈 数据有差异,歧义
机器翻译
受限词表问题
机器人
固定机器人
移动机器人
计算机视觉
自然语言处理


重点----机器学习
机器学习是从数据中分析获得模型 ,并利用模型对未知数据进行预测

机器学习工作流程
1.获取数据

2.数据基本处理
3.特征工程--重点
4.建立模型--机器学习算法(模型训练)
5.模型评估
1.好--上线服务
2.不好--重复迭代--2,3,4,5重复至上线服务

数据简介
一行数据是一个样本
一列数据是一个特征
有些数据有目标值 有些数据没有目标值

数据类型
数据类型一 特征值+目标值(目标是连续的,和离散的)
数据类型二 只有特征值,没有目标值

数据分割
训练集--构建模型
测试集--评估数据模型结果
划分比列 一般是2 8分
训练集 70%-80%-75%
测试集 30%-20%-25%

数据基本处理
即对数据进行缺失值,去除异常值等处理

特征工程--重点
使用专用背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
意义:会直接影响机器学习的效果
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,决定了算法的准确率

特征工程包含内容
1.特征提取
将任意数据(文本/图片)转成数字特征
2.特征预处理
通过一些-转化函数-将-特征数据-转换-成更加-适合算法模型-的特征数据-过程-
3.特征降维
旨在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”

 

机器学习算法分类


根据数据集组成不同 可以分为:
1.监督学习 有目标值 有特征值 有监督学习
目标 --连续--回归问题
目标 --离散--分类问题
2.有特征值 无目标值 无监督学习
3.半监督学习 部分数据有标签 部分数据没标签
4.强化学习 阿尔法狗

监督学习
数据类型:特征值+目标值
回归问题
目标是--连续型
分类问题
目标是--离散型

无监督学习
只有特征无目标值

半监督学习
特征值--目标值
特征值

强化学习
目标就是获得最多的累计奖励

独立同分布
独立,每次抽样都是独立的 ,不会相互影响,没有关系
同分布 每次抽样 都服从同一个分布
独立同分布 每次抽样独立 且同分布

Alphago — 大量样本数据学习—棋谱—有监督学习
Alphago zero — 强化学习


模型评估
按照数据集的目标值不同
连续 回归
离散 分类
分类模型评估
计算准确率,精确率,召回率,F1-score,AUC指标

回归模型评估
均方根误差(Root Mean Squared Error,RMSE)
真实值和预测值之间的信息损失度量
其他
相对平方误差
平均绝对误差
相对绝对误差

俩种结果 好和差
拟合——好-拟合效果好
不好-拟合效果不好
欠拟合:模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来,模型过于简单,没有学习到特征,
过拟合:训练集效果好,测试集效果不好,学习训练集太充分了,模型过于复杂,模型边缘锯齿状,不稳定

Azure机器学习模型搭建实例
1.获取数据
训练集--下载
2.数据基本处理
3.特征工程
4.建立模型
5.模型评估
看word文档


深度学习-深度结构学习、层次学习,深度机器学习,是一类算法集合,是机器学习的一个分支
卷积网络之父
深度学习 分层

神经网络


机器学习基础环境安装和使用
安装—库
安装— jupyter notebook
加强版 ipython 是这个的网页版
编辑模式 enter
命令模式 esc
a 上加一行
b 下加一行
dd 删除
m markdown模式
z

运行代码 shfit enter 执行并切换到下一个cell
ctrl enter 执行 留在当前


比-pycharm-在画图和数据展示方向更有优势

执行代码 shfit + enter 执行本单元新建一个单元

 

posted @ 2019-11-12 20:12  沐军  阅读(164)  评论(0编辑  收藏  举报