随笔分类 - ML/DL
摘要:HOW POWERFUL ARE GRAPH NEURAL NETWORKS? 本文是 Jure Leskovec 又一力作,首先对图神经网络的原理做了深入检出、提纲挈领的叙述,然后从原理方面介绍了如何发挥图神经网络的效用。 图神经网络可以分为三个阶段: Aggregate:聚合邻居节点信息 $$
阅读全文
摘要:Self-Supervised Learning 的核心思想 Unsupervised Pre-train, Supervised Fine-tune. 两大主流方法 基于 Generative 的方法 基于 Contrative 的方法 基于 Generative 的方法主要关注的重建误差,还原原
阅读全文
摘要:GPT系列 GPT2 The GPT-2 is built using transformer decoder blocks. BERT, on the other hand, uses transformer encoder blocks. auto-regressive: outputs one
阅读全文
摘要:写在前面: LightGBM 用了很久了,但是一直没有对其进行总结,本文从 LightGBM 的使用、原理及参数调优三个方面进行简要梳理。 开箱即用 quickstart 使用 LightGBM 官方接口,核心步骤 定义参数 构造数据 train predict # 1.定义参数 config =
阅读全文
摘要:MLOPS Hidden Technical Debt in Machine Learning Systems. google对MLOPS的介绍:MLOps:机器学习中的持续交付和自动化流水线 mlops上也有不错的介绍,那么如何搭建一个MLOPS? mymlops是一个不错的选择,提供了50+种M
阅读全文
摘要:主要针对大规模数据,对 tfrecord 进行切片,以及使用多进程加速数据处理 quick start 多进程分片写入 tfrecord 读取 def feature_transform(file): …… # 写入 tfrecord def serialize_example(sha256, da
阅读全文
摘要:假设通过用户 - 物品相似度进行个性化推荐 用户和物品的 Embedding 都在一个 \(k\) 维的 Embedding 空间中,物品总数为 \(n\),计算一个用户和所有物品向量相似度的时间复杂度是$ O(k*n)$ 直觉的解决方案 基于聚类 基于索引 基于聚类的思想 优点: 离线计算好每个
阅读全文
摘要:模型层间差分学习率 一般在微调Bert等预训练模型时使用,可以配合warmup,见warmup小记。 tensorflow 几行搞定,参考官方文档[1] import tensorflow_addons as tfa optimizers = [ tf.keras.optimizers.Adam(l
阅读全文
摘要:什么是warmup 热身,在刚刚开始训练时以很小的学习率进行训练,使得网络熟悉数据,随着训练的进行学习率慢慢变大,到了一定程度,以设置的初始学习率进行训练,接着过了一些inter后,学习率再慢慢变小; 学习率变化:上升——平稳——下降 为什么用warmup 有助于减缓模型在初始阶段对mini-bat
阅读全文
摘要:本文简述对抗训练在图像的的实践方法,关于对抗训练的理论和NLP应用请参阅参考文献【1】。 可以采用两种方法: 在原始样本训练模型,在对抗样本微调 混合正常样本和对抗样本一起训练 完成模型训练后,构造对抗样本 from tensorflow.keras.losses import MSE import
阅读全文
摘要:针对前文所述 机器学习模型部署摘要 中docker+fastapi部署机器学习的一个完整示例 outline fastapi简单示例 基于文件内容检测的机器学习&fastapi 在docker容器部署 Install pip install fastapi pip install "uvicorn[
阅读全文
摘要:1、如果是实时的、小数据量的预测应用,则采用的SOA调用Rserve或者python-httpserve来进行应用;这种应用方式有个缺点是需要启用服务来进行预测,也就是需要跨环境,从Java跨到R或者Python环境。对于性能,基本上我们用Rserver方式,针对一次1000条或者更少请求的预测,可
阅读全文
摘要:一般提升模型效果从两个大的方面入手 数据层面:数据增强、特征工程等 模型层面:调参,模型融合 **模型融合:**通过融合多个不同的模型,可能提升机器学习的性能。这一方法在各种机器学习比赛中广泛应用, 也是在比赛的攻坚时刻冲刺Top的关键。而融合模型往往又可以从模型结果,模型自身,样本集等不同的角度进
阅读全文
摘要:针对大型数据集,数据过大无法加载到内存,使用增量训练方式 sklearn def generator(all_file_path): for filename in all_file_path: try: bytedata = open(filename, "rb").read() except:
阅读全文
摘要:LeNet-5 AlexNet VGG-16 ResNet Inception 对比 https://cloud.tencent.com/developer/article/1481567 http://cs231n.stanford.edu/slides/2017/cs231n_2017_lect
阅读全文
摘要:拜读了Jure Leskovec的《Representation Learning on Networks》才明白图神经网络到底在学什么,是如何学的,不同GNN模型之间的关系是什么。总的来说,不同类型的模型都是在探讨如何利用图的节点信息去生成节点(图)的embedding表示。 图表示学习的两大主流
阅读全文
摘要:梯度下降怎么并行的? mini-batch Gradient Descent 并行化SGD LR怎么并行的? 按行并行 将数据按行(样本)划分到多个机器,每个机器负责计算部分样本,最后相加。 按列并行 将数据按列(特征)进行划分,每个机器负责计算部分特征,将不同机器计算结果相加。 假设M个样本,每个
阅读全文
摘要:回顾监督学习的一些要素 训练样本:\(x_i\) 模型:给定 \(x_i\) 预测 \(\hat{y}_i\) 参数:需要从数据中学到的 \(\theta = \{w_j|j=1,2,\cdots,d\}\) 目标函数 \[ obj(\theta) = L(\theta)+ \Omega(\thet
阅读全文
摘要:ID3 C4.5 CART 特征选择 信息增益 信息增益比 基尼不纯度 连续值处理 只能处理离散值 排序后找到不同类别的分割线 二分 特征在层级之间复用 否 否 是 树形式 多叉 多叉 二叉树 剪枝 无 有 有 适用问题 分类 分类 分类/回归 关于特征选择方式与熵? 熵反映了信息量大小(混乱程度)
阅读全文
摘要:逻辑回归与线性回归 逻辑回归 线性回归 目标函数 $\prod_N[\pi(x_i)][(1-\pi(x_i))^{(1-y_i)}] \(|\)\frac{1}{2}\sum_^N(\hat-y_i)^2$ 输出 离散值(分类) 连续值(回归) 求解 对似然函数求导,交叉熵 最小均方差求导 联系:
阅读全文