当corpus太大,无法直接存放成字典时怎么办
文件格式,一行一个json,每行代表corpus中的一个文件。
from multiprocessing import Manager
from datasets import load_dataset
manager = Manager()
corpus_dataset = load_dataset('json', # ‘json'
'default', # 'default'
data_files={'train': 'amazon_corpus.jsonl'})['train']
docid_to_idx = manager.dict(
{k: v for v, k in enumerate(corpus_dataset['doc_id'])})
item = corpus_dataset[docid_to_idx['123']] # docid转为idx,再取对应doc内容