摘要:
torchtext是pytorch自带的关于文本的处理工具。 torchtext支持的分词器 from torchtext.data.utils import get_tokenizer tokenizer = get_tokenizer('basic_english') 在/Users/xuehu
阅读全文
posted @ 2021-09-27 15:36
宋岳庭
阅读(495)
推荐(0)
编辑
摘要:
WikiText用于长时间依赖的语言建模 WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括Wi
阅读全文
posted @ 2021-09-27 15:29
宋岳庭
阅读(4866)
推荐(0)
编辑
摘要:
准备环境 安装依赖包 !which python ! pip install datasets transformers rouge-score nltk # 加载数据 from datasets import load_dataset, load_metric # raw_datasets = l
阅读全文
posted @ 2021-09-27 14:21
宋岳庭
阅读(633)
推荐(0)
编辑