摘要: BART模型是用来预训练seq-to-seq模型的降噪自动编码器(autoencoder)。它是一个序列到序列的模型,具有对损坏文本的双向编码器和一个从左到右的自回归解码器,所以它可以完美的执行翻译任务。 如果你想在翻译任务上测试一个新的体系结构,比如在自定义数据集上训练一个新的标记,那么处理起来会 阅读全文
posted @ 2023-07-06 20:51 张Zong在修行 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 在机器学习中,特征是指对象、人或现象的可测量和可量化的属性或特征。特征可以大致分为两类:稀疏特征和密集特征。 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230706195643595-799661913.png) ## 阅读全文
posted @ 2023-07-06 19:57 张Zong在修行 阅读(881) 评论(0) 推荐(0) 编辑
摘要: HuggingFace中对于数据集的使用有个`datasets`库。`datasets`是一个用于加载和处理各种自然语言处理(NLP)数据集的Python库,它由Hugging Face开发。该库提供了一个统一的API,可以方便地访问多个数据集,并且支持自定义数据集。`datasets`库的主要特点 阅读全文
posted @ 2023-07-06 13:15 张Zong在修行 阅读(18540) 评论(0) 推荐(1) 编辑