Loading

当corpus太大,无法直接存放成字典时怎么办

文件格式,一行一个json,每行代表corpus中的一个文件。

from multiprocessing import Manager
from datasets import load_dataset
manager = Manager()
corpus_dataset = load_dataset('json',  # ‘json'
                              'default',  # 'default'
                              data_files={'train': 'amazon_corpus.jsonl'})['train']
docid_to_idx = manager.dict(
        {k: v for v, k in enumerate(corpus_dataset['doc_id'])})
item = corpus_dataset[docid_to_idx['123']]  # docid转为idx,再取对应doc内容
posted @ 2022-11-05 15:56  戴墨镜的长颈鹿  阅读(41)  评论(0编辑  收藏  举报