当corpus太大，无法直接存放成字典时怎么办

文件格式，一行一个json，每行代表corpus中的一个文件。

from multiprocessing import Manager
from datasets import load_dataset
manager = Manager()
corpus_dataset = load_dataset('json',  # ‘json'
                              'default',  # 'default'
                              data_files={'train': 'amazon_corpus.jsonl'})['train']
docid_to_idx = manager.dict(
        {k: v for v, k in enumerate(corpus_dataset['doc_id'])})
item = corpus_dataset[docid_to_idx['123']]  # docid转为idx，再取对应doc内容

posted @ 2022-11-05 15:56 戴墨镜的长颈鹿阅读(41) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

戴墨镜的长颈鹿

当corpus太大，无法直接存放成字典时怎么办

公告