李沐深度学习 CS329

任务

  1. 先看前八个视频
  2. 波士顿房价预测
  3. 搭建深度学习框架、环境
  4. 收集跌倒检测特征(加速度,角速度,姿态角等),根据这些特征去找传感器。

待解决问题

  • 讲的是工业,或无数据集 但像项目/论文 应如何高效获取、寻找网络上的现有数据集(针对防跌倒)因为国外网站有时不实用

  • table - join

  • 网页数据抓取

  • csv - jupyter

个人评价+网络评价+经验

听李沐老师讲课真的是如沐春风,而且还是新课,专门又录了中文版,感动!
很多关于工业界的经验科普,但对于我这种小白不太适用诶!
image

笔记

p1 课程介绍

讲述了在工业界的应用和机器学习的影响力
image

机器学习流程

image

高质量的数据获取是很难的,你需要做大量的数据清洗、标注 另一方面,数据涉及用户的隐私

模型越来越大,越来越复杂:1.部署到线上困难 GPU 2.影响运行速度、用户体验
讲述了关于相关的分工,偏商业、公司,不记
据他介绍,会讲到很多工业界上的经验,也因此会跟常规的课程侧重点不一样
image

数据、训练、部署、监督

p2 数据获取

• MNIST: digits written by employees of the US Census Bureau
• ImageNet: millions of images from image search engines
• AudioSet: YouTube sound clips for sound classification
• LibriSpeech: 1000 hours of English speech from audiobook
• Kinetics: YouTube videos clips for human actions classification
• KITTI: traffic scenarios recorded by cameras and other sensors
• Amazon Review: customer reviews and from Amazon online shopping
• SQuAD: question-answer pairs derived from Wikipedia
More at https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research

Where to Find Datasets

• Paperswithcodes Datasets: academic datasets with
leaderboard
• Kaggle Datasets: ML datasets uploaded by data
scientists
• Google Dataset search: search datasets in the Web
• Various toolkits datasets: tensorflow, huggingface
• Various conference/company ML competitions
• Open Data on AWS: 100+ large-scale raw data
• Data lakes in your own organization
image

学术 竞赛 原始数据集的 优劣势

数据脱敏、法律问题、隐私 这确实很重要,不过跟我暂时无关

Data Integration 数据融合 (还没细讲

table - join

image

如何生成更多数据

p3 网页数据抓取

噪音多,标号弱,多无用信息
爬 - 抓取数据 一个是全部 一个有筛选
前半段都讲的是如何从网站获取到原始数据,可以尝试一下,感觉成功概率不大。
AWS EC2 呜,还得买机子
爬公开信息
呜,只是泛泛地讲一下

p4 数据标注

半监督学习:
少部分有标注数据,大量数据无标注

  • 连续性假设:特征相似,可能标注相同
  • 聚类假设:内在聚类结构,可能标注相同
  • 流型假设:维度高,数据内在复杂度低,可降维

自学习算法:
循环:模型预测训练--伪标号--融合
缺点:标号噪音大
image

主动学习+自训练

众包
还有些概念就不记了,感觉很多都是工业界、企业上的经验

p5 探索性数据分析

波士顿房价数据集网站
.ipqnb文件直接用vscode打开了,好像是介绍+代码 效果尚可
image

分析了列 数据是否正常

image

数据过滤例子(房屋面积在正常范围内)

singlefamily是7w个,single damily中间加一个空格等等,这里就应该是弄错了,需要在数据清洗的章节中处理好。
image

box plot 单位面积的价格 黑横线25% 均值 75%

image

协方差,看看向量的相关性,不同的列相关性

p6 数据清洗

image

数据预处理流程

data error 好的ml模型对于错误数据的容忍度高

数据错误类型

  • 超出范围 (outliers
  • 规则冲突 (not null / postive
  • 模式冲突 (空格 ,单位
    感觉这一节收获不多

p7 数据变换

一般数据变换(形)在数据清洗后,特征工程前
image

4个常见的数据处理方式 多为化为"比例"

第一个方法就是转换成比例
Z-score博客
第二个 举的一个例子,就是a考了90分,班里均值95,标准差2 故 -5/2
image

均值为0,方差为1 我也不知道这啥意思

最后的这个方法log使得所有的加减都转换成了乘除的效果 妙啊 增强了比例的影响
哈哈哈,数据确实会"撒谎",用比例,用数字,只需9.99元,用一天只需几毛钱,哈哈,然后就会影响人的判断, 当我购物时,如果没有一个商品的价格概念,有时候甚至就是感觉自己需要去买那么贵的
Image Whitening :就是使图片邻近像素值的相关性降低的算法 减小冗余,加速收敛
这个东西有大量的随机性在里面,你非常难去debug 图片质量 图片尺寸调低,机器学习对于低像素图片处理的能力尚可 jpeg 85% medium + 尺寸压缩 导致最后1% acc drop 相当于是没能成功复现
视频 采样、解码与存储问题的博弈 抽帧
文本的处理

  1. 化为词根 如am,is,are化为be car,cars化为car 因为语法的正确与否对ml不影响,甚至简化后有利
  2. 词元化 分词 text.split(' ') e.g. “a new gpu!” “a”, “new”, “gp”, “##u”, “!” 我也不是很理解这个例子,为什么能起到作用 提到词典

p8 特征工程

image

特征工程随着ml和dl的发展

image

独热编码的好处

还是不太理解,些许抽象,感觉需要ml的基础
管他呢,先跳过

p9 数据科学家的日常

关于数据这一章的一个总结,对我用处不大
image

数据处理的挑战

挑战:

  • 权衡数据量和质量
  • 数据的质量,多元性,无偏性,公平性(采样的方式)
  • 数据大规模造成的存储、计算、处理、版本(哪个阶段的数据)和安全

感觉问题在于自己没有通!

p10 机器学习介绍

image

机器学习算法的类型(监督、半、无、强化)

image

监督学习的四大组成(模型、损失、目标 函数、优化)

image

监督学习的模型的四种类型(决策树、线性、神经网络)

image

总结

感觉这节课的几张PPT都比较干货
损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。
代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
还以为是一个东西两种叫法呢,不过也差不多

[========]

啥是分页符??


这里加了个几个换行便于阅读,划分(排版、设计好难)


课程目录(斯坦福大学 英文版)

  1. Data collection
  2. Data Preprocessing
  3. ML model recap
  4. Model Validation
  5. Model Combination
  6. Covariate and Concept Shift
  7. Label Shift and Drift Detection
  8. Data beyond IID
  9. Model Tuning
  10. Deep Network Tuning
  11. Transfer Learning
  12. Distillation
  13. Multimodal data
  14. Model Deployment
  15. Fairness (Criteria)
  16. Fairness (Fixes) and Explainability
  17. Guest Lecture
  18. Guest Lecture

课程内容介绍 英文版

这门课程旨在教大家如何运用机器学习准确、稳健地解决现实世界的问题,涵盖统计学、算法和代码实现,具体内容包括:

处理数据的实用技巧。这点非常重要,因为现实世界的数据通常并不是独立同分布的。这里面包含检测协变量、概念和标签移位,以及建模相关随机变量,如时间序列和图中的变量。
高效训练机器学习模型的技巧。例如超参数调优、模型组合、迁移学习等。
公平性、可解释性以及模型的高效部署。
整个课程共分为四大部分:

  • Basic ML Modeling
  • Broken Assumptions
  • Performance Tuning
  • Beyond the Model

第一大部分分为五个小节,分别讲解了数据收集、数据预处理、ML 模型概述、模型验证和模型组合。
第二大部分分为三个小节,包含协变量和概念移位、标签移位和漂移检测,以及独立同分布之外的数据。
第三部分分为五个小节,分别介绍了模型调优、深度网络调优、迁移学习、蒸馏和多模态数据。
第四部分分为五个小节,包括模型部署、公平性、可解释性等几节常规课和主题待定的两节讲座课。

posted @ 2022-05-02 23:37  fangxingxing  阅读(134)  评论(1编辑  收藏  举报