2021 年 9月 27 日随笔档案 - 宋岳庭

2021年9月27日

摘要： torchtext是pytorch自带的关于文本的处理工具。 torchtext支持的分词器 from torchtext.data.utils import get_tokenizer tokenizer = get_tokenizer('basic_english') 在/Users/xuehu 阅读全文

posted @ 2021-09-27 15:36 宋岳庭阅读(502) 评论(0) 推荐(0) 编辑

wikitext数据集

摘要： WikiText用于长时间依赖的语言建模 WikiText 英语词库数据（The WikiText Long Term Dependency Language Modeling Dataset）是一个包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到，包括Wi 阅读全文

posted @ 2021-09-27 15:29 宋岳庭阅读(5140) 评论(0) 推荐(0) 编辑

使用transformer训练语言模型

摘要：准备环境安装依赖包 !which python ! pip install datasets transformers rouge-score nltk # 加载数据 from datasets import load_dataset, load_metric # raw_datasets = l 阅读全文

posted @ 2021-09-27 14:21 宋岳庭阅读(634) 评论(0) 推荐(0) 编辑