上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 35 下一页
摘要: 前言 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要 阅读全文
posted @ 2021-09-07 15:09 jasonzhangxianrong 阅读(991) 评论(0) 推荐(0) 编辑
摘要: 最近一直没有更新文章,实在惭愧。伴随着小老弟的职业方向由风控转向了NLP,后面的文章也会集中在NLP领域,希望大家能够继续支持~话不多说,今天来介绍一个简单又高效实用的算法-TextRank。 TextRank主要有关键词提取和文本摘要两个功能,在Jieba分词里也有集成,本文将围绕原理、应用及优缺 阅读全文
posted @ 2021-09-07 09:56 jasonzhangxianrong 阅读(1151) 评论(0) 推荐(0) 编辑
摘要: 一、什么是 TF-IDF? TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随 阅读全文
posted @ 2021-09-07 09:53 jasonzhangxianrong 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例,模型层面主要是通过加权Loss,包括基于类别Loss、Focal Loss 阅读全文
posted @ 2021-09-06 15:44 jasonzhangxianrong 阅读(2395) 评论(0) 推荐(0) 编辑
摘要: 一、准备数据 二、构建模型 三、训练模型 四、进行预测 五、批量随机梯度下降的实现 阅读全文
posted @ 2021-09-04 20:25 jasonzhangxianrong 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 一、显示损失 阅读全文
posted @ 2021-09-04 16:58 jasonzhangxianrong 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 一、准备数据 二、构建模型 三、进行训练 四、进行预测 阅读全文
posted @ 2021-09-02 20:17 jasonzhangxianrong 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 差分隐私是为了在敏感数据上进行数据分析而发展起来的一套机制,通过混淆数据库查询结果,来实现数据在个人层面的隐私性,并且保证查询结果近似正确。这篇文章通过一些例子简要介绍差分隐私的提出动机和思想,主要参考Dwork的The Algorithmic Foundations of Differential 阅读全文
posted @ 2021-09-02 16:01 jasonzhangxianrong 阅读(833) 评论(0) 推荐(0) 编辑
摘要: 最近一直在学习差分隐私,刚开始学的时候由于对这方面的知识不太清楚,一直处于模模糊糊的理解状态。现在学习了一段时间后开始有了一些初步的认识,所以把学习过程中的一些知识总结一下,方便以后复习,也为其他的小伙伴提供一些思路。由于我也是初学者,所以难免会出现一些错误,希望各位大佬可以指出。 本文的主要内容是 阅读全文
posted @ 2021-09-02 14:45 jasonzhangxianrong 阅读(1042) 评论(0) 推荐(0) 编辑
摘要: 大家在训练深度学习模型的时候,经常会使用 GPU 来加速网络的训练。但是说起 torch.backends.cudnn.benchmark 这个 GPU 相关的 flag,可能有人会感到比较陌生。在一般场景下,只要简单地在 PyTorch 程序开头将其值设置为 True,就可以大大提升卷积神经网络的 阅读全文
posted @ 2021-09-01 16:44 jasonzhangxianrong 阅读(321) 评论(0) 推荐(2) 编辑
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 35 下一页