09 2021 档案
摘要:3、方法 In this section, we introduce the proposed VSRNet which aims to jointly retrieve the corresponding videos and locate the related segments accordi
阅读全文
摘要:一、列表转换成字典 self.cat_list = [] with open(os.path.join(self.raw_data, "cat.txt")) as f: for line in f.readlines(): self.cat_list.append(line.strip()) sel
阅读全文
摘要:注意:如果您想要更多演示来展示您可以使用 PySyft 做什么,您可以在 Twitter 上关注@theoryffel和@openminedorg。感谢所有反馈! 目前,Privacy-Preserving ML 中的许多作品都在探索联邦学习和差分隐私,但恰好很难将它们一起使用,并且关于如何使用它们
阅读全文
摘要:总结:我从可以玩的玩具代码中学习得最好。本教程使用 PyTorch 最近发布的名为 Opacus 的库(此处提供完整代码示例)来教授差异化私有深度学习。有关差异隐私的更多信息,您可以在 Twitter 上关注@kritipraks或@openminedorg。 我们 OpenMined 正在与 Py
阅读全文
摘要:We are starting a series of blog posts on DP-SGD that will range from gentle introductions to detailed coverage of the math and of engineering details
阅读全文
摘要:一、代码 def clean(): train = pd.read_csv(os.path.join(raw, "train.txt"),sep="\t", header=None,names=["s", "l"]) train_s = train["s"].tolist() train_l = t
阅读全文
摘要:一、读取数据 二、数据集划分 三、准备建模 四、数据准备 五、构建模型 六、训练模型 七、版本二:模型归一化
阅读全文
摘要:前言 在大数据和算力的助力下,深度学习掀起了一波浪潮,在许多领域取得了显著的成绩。以监督学习为主的深度学习方法,往往期望能够拥有大量的标注样本进行训练,模型能够学到更多有价值的知识(如下左图展示了3组常见的图像分类数据集,拥有上万的标注样本)。 然而,实际应用场景的标注样本严重稀缺。并且,标注大量样
阅读全文
摘要:主动学习背景介绍 机器学习的研究领域包括有监督学习(Supervised Learning),无监督学习(Unsupervised Learning),半监督学习(Semi-supervised Learning)和强化学习(Reinforcement Learning)等诸多内容。针对有监督学习和
阅读全文
摘要:一、数据读取 二、准备建模 三、模型定义 四、模型训练 五、特征数据归一化 六、模型应用 六、可视化训练过程的损失 七、新版本-tensorbord可视化
阅读全文
摘要:前言 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要
阅读全文
摘要:最近一直没有更新文章,实在惭愧。伴随着小老弟的职业方向由风控转向了NLP,后面的文章也会集中在NLP领域,希望大家能够继续支持~话不多说,今天来介绍一个简单又高效实用的算法-TextRank。 TextRank主要有关键词提取和文本摘要两个功能,在Jieba分词里也有集成,本文将围绕原理、应用及优缺
阅读全文
摘要:一、什么是 TF-IDF? TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随
阅读全文
摘要:摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例,模型层面主要是通过加权Loss,包括基于类别Loss、Focal Loss
阅读全文
摘要:一、准备数据 二、构建模型 三、训练模型 四、进行预测 五、批量随机梯度下降的实现
阅读全文
摘要:一、显示损失
阅读全文
摘要:一、准备数据 二、构建模型 三、进行训练 四、进行预测
阅读全文
摘要:差分隐私是为了在敏感数据上进行数据分析而发展起来的一套机制,通过混淆数据库查询结果,来实现数据在个人层面的隐私性,并且保证查询结果近似正确。这篇文章通过一些例子简要介绍差分隐私的提出动机和思想,主要参考Dwork的The Algorithmic Foundations of Differential
阅读全文
摘要:最近一直在学习差分隐私,刚开始学的时候由于对这方面的知识不太清楚,一直处于模模糊糊的理解状态。现在学习了一段时间后开始有了一些初步的认识,所以把学习过程中的一些知识总结一下,方便以后复习,也为其他的小伙伴提供一些思路。由于我也是初学者,所以难免会出现一些错误,希望各位大佬可以指出。 本文的主要内容是
阅读全文
摘要:大家在训练深度学习模型的时候,经常会使用 GPU 来加速网络的训练。但是说起 torch.backends.cudnn.benchmark 这个 GPU 相关的 flag,可能有人会感到比较陌生。在一般场景下,只要简单地在 PyTorch 程序开头将其值设置为 True,就可以大大提升卷积神经网络的
阅读全文
摘要:PyTorch 作为一个深度学习平台,在深度学习任务中比 NumPy 这个科学计算库强在哪里呢?我觉得一是 PyTorch 提供了自动求导机制,二是对 GPU 的支持。由此可见,自动求导 (autograd) 是 PyTorch,乃至其他大部分深度学习框架中的重要组成部分。 了解自动求导背后的原理和
阅读全文
摘要:这篇文章主要是围绕 PyTorch 中的 tensor 展开的,讨论了张量的求导机制,在不同设备之间的转换,神经网络中权重的更新等内容。面向的读者是使用过 PyTorch 一段时间的用户。本文中的代码例子基于 Python 3 和 PyTorch 1.1,如果文章中有错误或者没有说明白的地方,欢迎在
阅读全文
摘要:PyTorch 中有一些基础概念在构建网络的时候很重要,比如 nn.Module, nn.ModuleList, nn.Sequential,这些类我们称之为容器 (containers),因为我们可以添加模块 (module) 到它们之中。这些容器之间很容易混淆,本文中我们主要学习一下 nn.Mo
阅读全文
摘要:转载于:https://zhuanlan.zhihu.com/p/361152151 转载于:https://www.jianshu.com/p/30043bcc90b6 摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和
阅读全文