摘要:
本篇文章将对自监督学习的要点进行总结,包括以下几个方面: 监督学习与自监督学习 自监督学习需求背后的动机 NLP 和CV中的自监督学习 联合嵌入架构 对比学习 关于数据增强的有趣观察 非对比学习 总结和参考 监督学习与自监督学习 监督学习:机器学习中最常见的方法是监督学习。在监督学习中,我们得到一组 阅读全文
摘要:
说到计算机生成的图像肯定就会想到deep fake:将马变成的斑马或者生成一个不存在的猫。在图像生成方面GAN似乎成为了主流,但是尽管这些模型在生成逼真的图像方面取得了巨大成功,但他们的缺陷也是十分明显的,而且并不是生成图像的全部。自编码器(autoencoder)作为生成的图像的传统模型还没有过时 阅读全文
摘要:
数据对于当今的每个行业都很重要,几乎每家公司都在收集数据并使用它们来做出数据驱动的业务决策。在这个过程中最重要的步骤之一是分析数据。有许多专门用于数据可视化的 python 库。例如 Matplotlib、Seaborn 等,但是他们只提供了图标的功能,如果我们需要进行EDA则需要手动编写代码。在本 阅读全文
摘要:
新手而言管理 Python 项目中的依赖项是非常具有挑战性的,这个问题是由历史原因引起的并且一直被吐槽。 在今天的文章中,我们将讨论如何正确管理 Python 项目的依赖关系。更具体地说,将讨论 requirements.txt 文件的用途以及如何使用 setuptools 来分发自定义的Pytho 阅读全文
摘要:
在这篇论文中,作者提出了一种优化的方法来找到给定模型的通用对抗样本(首先在 Moosavi-Desfooli 等人 [1] 中引入)。作者还提出了一种低成本算法来增强模型对此类扰动的鲁棒性。 Universal Adversarial Perturbations (UAP) 很“便宜” - 单个噪声 阅读全文
摘要:
在 SQL 中经常会使用JOIN操作来组合两个或多个表。有很多种不同种类的 JOINS操作,并且pandas 也提供了这些方式的实现来轻松组合 Series 或 DataFrame。 SQL语句提供了很多种JOINS 的类型: 内连接 外连接 全连接 自连接 交叉连接 在本文将重点介绍自连接和交叉连 阅读全文
摘要:
推荐系统是当今业界最具影响力的 ML 任务。从淘宝到抖音,科技公司都在不断尝试为他们的特定应用程序构建更好的推荐系统。而这项任务并没有变得更容易,因为我们每天都希望看到更多可供选择的项目。所以我们的模型不仅必须做出最优推荐,而且还必须高效地做出推荐。今天介绍的这个模型被称作:Light Graph 阅读全文
摘要:
上篇文章我们已经介绍了Hugging Face的主要类,在本文中将介绍如何使用Hugging Face进行BERT的微调进行评论的分类。其中包含:AutoTokenizer、AutoModel、Trainer、TensorBoard、数据集和指标的使用方法。 在本文中,我们将只关注训练和测试拆分。每 阅读全文
摘要:
这篇文章主要介绍 Z. Dai 等人的论文 CoAtNet: Marrying Convolution and Attention for All Data Sizes。(2021 年)。 2021 年 9 月 15 日,一种新的架构在 ImageNet 竞赛中的实现了最先进的性能 (SOTA)。C 阅读全文
摘要:
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,常用于标注或分析序列资料,如自然语言文字或是生物序列。近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。 条件随机场是一类最适合预测任务的判别模型,其中相邻的上下 阅读全文