摘要:
title: "在 Transformers 中使用对比搜索生成可媲美人类水平的文本🤗" thumbnail: /blog/assets/115_introducing_contrastive_search/thumbnail.png authors: - user: GMFTBY transla 阅读全文
摘要:
T5 (Text-to-Text Transfer Transformer) 模型是为探索迁移学习的局限性而进行的一项大规模研究(论文)的产物。它建立在 GPT、BERT 和 RoBERTa(仅举几例)模型等流行的架构之上,这些模型利用迁移学习取得了令人难以置信的成功。虽然类似 BERT 的模型可以 阅读全文
摘要:
自从 T5(文本到文本传输转换器)问世以来,一直渴望尝试它,早在 2019 年 10 月(已经有几个月了)。我弄乱了几次来自 Google 的开源代码,但我从未设法让它正常工作。其中一些有点超出我的脑海(Tensorflow 😫),所以我想我会等待 Hugging Face 来救援!与往常一样,T 阅读全文
摘要:
近期一直在用torch的分布式训练,本文调研了目前Pytorch的分布式并行训练常使用DDP模式(Distributed DataParallell ),从基本概念,初始化启动,以及第三方的分布式训练框架展开介绍。最后以一个Bert情感分类给出完整的代码例子:torch-ddp-examples。 阅读全文
摘要:
Huggingface | 修改模型的embedding 目标: 在NLP领域,基于公开语料的预训练模型,在专业领域迁移时,会遇到专业领域词汇不在词汇表的问题,本文介绍如何添加专有名词到预训练模型。 NLP的处理流程: 对输入的句子进行分词,得到词语及下标 通过embedding层获得词语对应的em 阅读全文
摘要:
cd D:\gpt_academic-master\gpt_log\arxiv_cache\2404.07771\workfolder >pdflatex -shell-escape -interaction=nonstopmode -file-line-error merge_translate_ 阅读全文
摘要:
目录 概 符号说明 流程 代码 Gong S., Li M., Feng J., Wu Z. and Kong L. DiffuSeq: Sequence to sequence text generation with diffusion models. In International Conf 阅读全文
摘要:
1. 问题描述如题,在用PyCharm进行Python代码调试查看具体变量时,会随机遇到一直显示collecting data,到最后报错Timeout waiting for response,在界面中看不到变量内部的内容,如下图所示: 2. 解决办法在PyCharm,打开Setting界面,在如 阅读全文
摘要:
Diffusion论文:Denoising Diffusion Probabilistic Models参考博客open in new window;参考 paddle 版本代码: aistudio 实践链接open in new window该文章主要对 DDPM 论文中的公式进行小白推导,并根据 阅读全文
摘要:
DIFFUSION 系列笔记|DDIM 数学、思考与 ppdiffuser 代码探索论文:DENOISING DIFFUSION IMPLICIT MODELS参考 博客open in new window; 参考 aistudio notebook 链接,其中包含详细的公式与代码探索: linko 阅读全文