2021年9月27日
摘要: torchtext是pytorch自带的关于文本的处理工具。 torchtext支持的分词器 from torchtext.data.utils import get_tokenizer tokenizer = get_tokenizer('basic_english') 在/Users/xuehu 阅读全文
posted @ 2021-09-27 15:36 宋岳庭 阅读(502) 评论(0) 推荐(0) 编辑
摘要: WikiText用于长时间依赖的语言建模 WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括Wi 阅读全文
posted @ 2021-09-27 15:29 宋岳庭 阅读(5140) 评论(0) 推荐(0) 编辑
摘要: 准备环境 安装依赖包 !which python ! pip install datasets transformers rouge-score nltk # 加载数据 from datasets import load_dataset, load_metric # raw_datasets = l 阅读全文
posted @ 2021-09-27 14:21 宋岳庭 阅读(634) 评论(0) 推荐(0) 编辑