随笔分类 - Deep Learning
摘要:模型搞到这时候,就是要以不断提升泛化力和鲁棒性,当今两个主流的方法是(1)知识蒸馏;(2)对抗学习 本节主要说对抗训练,它是一种能够有效提高模型鲁棒性和泛化能力的训练手段,基本原理:在原始输入上增加对抗扰动,得到对抗样本,再利用对抗样本进行训练,从而提高模型表现。 在自然语言处理中,这个任务处理的就
阅读全文
摘要:
阅读全文
摘要:import numpy as np from matplotlib import pyplot as plt from torchvision import datasets, transforms def softmax_t(x, t): x_exp = np.exp(x /t) return
阅读全文
摘要:学生模型以较少的参数学习老师的分布,在老师的知道下获得性能提升,可以作为模型压缩的一种思路,示例代码如下: """ Function:knowledge distillation """ import math import torch import torch.nn as nn import to
阅读全文
摘要:直接上代码 from collections import Counter import numpy as np text = 'I love china. the dog on the ground' text = text.split() # print(text) vocab = dict(C
阅读全文
摘要:pytorch几十行代码搞清楚模型的构建和训练 import torch import torch.nn as nn N, D_in, H, D_out = 64, 1000, 100, 10 # data x = torch.randn(N, D_in) y = torch.randn(N, D_
阅读全文
摘要:对于BERT后时代,不得不说强有力的预训练模型是刷榜、出色完成任务的基础,现在列举几个对此很有帮助的资源,同大家一起进步!!! 一:互联网新闻情感分析复赛top8(8/2745)解决方案及总结; 地址:https://zhuanlan.zhihu.com/p/101554661 大佬的这篇知乎博客总
阅读全文
摘要:本次介绍假新闻赛道一第一名的构建思路,大家一起学习下 任务描述 文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。虚假新闻文本检测,具体任务为:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。该任务可抽象为NLP领域的文本分类任务,根据新闻文本内容,判定该新闻是真新闻还
阅读全文
摘要:一、多模态智能信息检索技术设计1.设计检索的框架流程,设计检索评估方法完成的任务:用户搜索“苹果”,在限定性语境中,如何做到用户是需要找“苹果手机”,而不是水果“苹果”系统输入:一个关键词 输出:同输入词相关的若干词汇(可能是用户需要的敏感词汇)预计出现的问题: 1)输出相似或相关词汇由于模型的误判
阅读全文
摘要:1.现状 1)为啥诈骗检测的难度高: 诈骗的定义很模糊,很多情况下客户都根本不知道具体的诈骗 表面上诈骗是一个二分类问题(是或者不是),但仔细想想是一个多分类问题,因为每种不同的诈骗都可以当成一个单独的类型 单一类型的诈骗非常之多,普遍存在,同时诈骗的手段也在千变万化。需要不断更新检测手段,不能把赌
阅读全文
摘要:多任务学习、对抗学习、知识蒸馏三大方法结合起来,效果突飞猛进??? NLP新基准SuperGLUE榜单刷新 追一科技超Facebook,地址:https://m.gmw.cn/baijia/2020-01/20/33497522.html 那么结合的方式值得我们思考讨论
阅读全文
摘要:预训练文本分类地址: https://www.cnblogs.com/jiangxinyang/p/10241243.html https://www.cnblogs.com/zhouxiaosong/p/11384197.html 快速适配下游任务的工程代码:https://github.com/
阅读全文
摘要:新年伊始,NLP技术在2019年大放异彩,BERT,GPT-2,Mass,ElMo,ULMFit等预训练+精调的思维路线开辟了新的方向,也给我们这一块带来新的希望! 作为工程技术人员,我们首要就是要将更好的技术应用于产品,获取利润,那么可以在大佬的步伐下吃一波红利,指导应用开发。本人也比较懒,总结做
阅读全文
摘要:最近在搞聊天数据分析,对文本摘要有需求,学习一下该方法。 一、文本摘要(Document Summarization) 文本摘要,一般地我们会把它分成抽取式文本摘要和生成式文本摘要。就目前的形势而言,工业界应用广泛的还是抽取式文本摘要。抽取式文本摘要的优点很多,主题不易偏离、适应性广、速度快。 抽取
阅读全文
摘要:1.做文本聚类时,有些低频词是分词错误或者无用信息,前期需要处理掉 关键代码:
阅读全文
摘要:1.KS值--学习器将正例和反例分开的能力,确定最好的“截断点” KS曲线和ROC曲线都用到了TPR,FPR。KS曲线是把TPR和FPR都作为纵坐标,而样本数作为横坐标。但是AUC只评价了模型的整体训练效果,并没有指出如何划分类别让预估的效果达到最好。不同之处在于,ks取的是TPR和FPR差值的最大
阅读全文
摘要:虽然,虽然,虽然,今天: 百度发布了2019年第一季度未经审计的财务报告。本季度百度营收241亿元人民币(约合35.9亿美元),同比增长15%,移除业务拆分收入影响,同比增长21%。低于市场预期242.7亿元。净亏损为人民币3.27亿元(约合4900万美元),去年同期净利润为人民币66.94亿元。这
阅读全文
摘要:pypi 镜像使用帮助 pypi 镜像每 5 分钟同步一次。 临时使用 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 注意,simple 不能少, 是 https 而不是 http 设为默认 升级 pip 到
阅读全文
摘要:Instructions [THIS REPOSITORY IS UNDER DEVELOPMENT AND MOER DATASETS AND MODELS WILL BE ADDED] [FEEL FREE TO MAKE PULL REQUEST FOR A NEW DATASET OR NE
阅读全文