李沐深度学习 CS329
任务
- 先看前八个视频
- 波士顿房价预测
- 搭建深度学习框架、环境
- 收集跌倒检测特征(加速度,角速度,姿态角等),根据这些特征去找传感器。
待解决问题
-
讲的是工业,或无数据集 但像项目/论文 应如何高效获取、寻找网络上的现有数据集(针对防跌倒)因为国外网站有时不实用
-
table - join
-
网页数据抓取
-
csv - jupyter
个人评价+网络评价+经验
听李沐老师讲课真的是如沐春风,而且还是新课,专门又录了中文版,感动!
很多关于工业界的经验科普,但对于我这种小白不太适用诶!
额
笔记
p1 课程介绍
讲述了在工业界的应用和机器学习的影响力
高质量的数据获取是很难的,你需要做大量的数据清洗、标注 另一方面,数据涉及用户的隐私
模型越来越大,越来越复杂:1.部署到线上困难 GPU 2.影响运行速度、用户体验
讲述了关于相关的分工,偏商业、公司,不记
据他介绍,会讲到很多工业界上的经验,也因此会跟常规的课程侧重点不一样
p2 数据获取
Popular ML datasets 数据集获取网站
• MNIST: digits written by employees of the US Census Bureau
• ImageNet: millions of images from image search engines
• AudioSet: YouTube sound clips for sound classification
• LibriSpeech: 1000 hours of English speech from audiobook
• Kinetics: YouTube videos clips for human actions classification
• KITTI: traffic scenarios recorded by cameras and other sensors
• Amazon Review: customer reviews and from Amazon online shopping
• SQuAD: question-answer pairs derived from Wikipedia
More at https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research
Where to Find Datasets
• Paperswithcodes Datasets: academic datasets with
leaderboard
• Kaggle Datasets: ML datasets uploaded by data
scientists
• Google Dataset search: search datasets in the Web
• Various toolkits datasets: tensorflow, huggingface
• Various conference/company ML competitions
• Open Data on AWS: 100+ large-scale raw data
• Data lakes in your own organization
数据脱敏、法律问题、隐私 这确实很重要,不过跟我暂时无关
Data Integration 数据融合 (还没细讲
table - join
p3 网页数据抓取
噪音多,标号弱,多无用信息
爬 - 抓取数据 一个是全部 一个有筛选
前半段都讲的是如何从网站获取到原始数据,可以尝试一下,感觉成功概率不大。
AWS EC2 呜,还得买机子
爬公开信息
呜,只是泛泛地讲一下
p4 数据标注
半监督学习:
少部分有标注数据,大量数据无标注
- 连续性假设:特征相似,可能标注相同
- 聚类假设:内在聚类结构,可能标注相同
- 流型假设:维度高,数据内在复杂度低,可降维
自学习算法:
循环:模型预测训练--伪标号--融合
缺点:标号噪音大
众包
还有些概念就不记了,感觉很多都是工业界、企业上的经验
p5 探索性数据分析
波士顿房价数据集网站
.ipqnb文件直接用vscode打开了,好像是介绍+代码 效果尚可
singlefamily是7w个,single damily中间加一个空格等等,这里就应该是弄错了,需要在数据清洗的章节中处理好。
p6 数据清洗
data error 好的ml模型对于错误数据的容忍度高
数据错误类型
- 超出范围 (outliers
- 规则冲突 (not null / postive
- 模式冲突 (空格 ,单位
感觉这一节收获不多
p7 数据变换
一般数据变换(形)在数据清洗后,特征工程前
第一个方法就是转换成比例
Z-score博客
第二个 举的一个例子,就是a考了90分,班里均值95,标准差2 故 -5/2
最后的这个方法log使得所有的加减都转换成了乘除的效果 妙啊 增强了比例的影响
哈哈哈,数据确实会"撒谎",用比例,用数字,只需9.99元,用一天只需几毛钱,哈哈,然后就会影响人的判断, 当我购物时,如果没有一个商品的价格概念,有时候甚至就是感觉自己需要去买那么贵的
Image Whitening :就是使图片邻近像素值的相关性降低的算法 减小冗余,加速收敛
这个东西有大量的随机性在里面,你非常难去debug 图片质量 图片尺寸调低,机器学习对于低像素图片处理的能力尚可 jpeg 85% medium + 尺寸压缩 导致最后1% acc drop 相当于是没能成功复现
视频 采样、解码与存储问题的博弈 抽帧
文本的处理
- 化为词根 如am,is,are化为be car,cars化为car 因为语法的正确与否对ml不影响,甚至简化后有利
- 词元化 分词 text.split(' ') e.g. “a new gpu!” “a”, “new”, “gp”, “##u”, “!” 我也不是很理解这个例子,为什么能起到作用 提到词典
p8 特征工程
还是不太理解,些许抽象,感觉需要ml的基础
管他呢,先跳过
p9 数据科学家的日常
关于数据这一章的一个总结,对我用处不大
挑战:
- 权衡数据量和质量
- 数据的质量,多元性,无偏性,公平性(采样的方式)
- 数据大规模造成的存储、计算、处理、版本(哪个阶段的数据)和安全
感觉问题在于自己没有通!
p10 机器学习介绍
感觉这节课的几张PPT都比较干货
损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。
代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
还以为是一个东西两种叫法呢,不过也差不多
[========]
啥是分页符??
这里加了个几个换行便于阅读,划分(排版、设计好难)
课程目录(斯坦福大学 英文版)
- Data collection
- Data Preprocessing
- ML model recap
- Model Validation
- Model Combination
- Covariate and Concept Shift
- Label Shift and Drift Detection
- Data beyond IID
- Model Tuning
- Deep Network Tuning
- Transfer Learning
- Distillation
- Multimodal data
- Model Deployment
- Fairness (Criteria)
- Fairness (Fixes) and Explainability
- Guest Lecture
- Guest Lecture
课程内容介绍 英文版
这门课程旨在教大家如何运用机器学习准确、稳健地解决现实世界的问题,涵盖统计学、算法和代码实现,具体内容包括:
处理数据的实用技巧。这点非常重要,因为现实世界的数据通常并不是独立同分布的。这里面包含检测协变量、概念和标签移位,以及建模相关随机变量,如时间序列和图中的变量。
高效训练机器学习模型的技巧。例如超参数调优、模型组合、迁移学习等。
公平性、可解释性以及模型的高效部署。
整个课程共分为四大部分:
- Basic ML Modeling
- Broken Assumptions
- Performance Tuning
- Beyond the Model
第一大部分分为五个小节,分别讲解了数据收集、数据预处理、ML 模型概述、模型验证和模型组合。
第二大部分分为三个小节,包含协变量和概念移位、标签移位和漂移检测,以及独立同分布之外的数据。
第三部分分为五个小节,分别介绍了模型调优、深度网络调优、迁移学习、蒸馏和多模态数据。
第四部分分为五个小节,包括模型部署、公平性、可解释性等几节常规课和主题待定的两节讲座课。