深度学习模型-快速构建词典和id的映射

直接上代码

复制代码
from collections import Counter
import numpy as np

text = 'I love china. the dog on the ground'
text = text.split()
# print(text)
vocab = dict(Counter(text).most_common(5))
vocab['<unk>'] = len(text) - np.sum(list(vocab.values()))

id_to_word = [word for word in vocab.keys()]
word_to_id = {word:i for i, word in enumerate(id_to_word)}

print(word_to_id)

# print(list(vocab.values()))
复制代码

 

V2

复制代码
from collections import Counter
import numpy as np
import pandas as pd
import csv

vocab_file = r"resources/vocab.txt"
cut_num = 7
vocab_df = pd.read_csv(vocab_file, encoding='utf-8', sep='\t', header=None, quoting=csv.QUOTE_NONE)

text = '我是中 国人'
text = [e for e in text.strip().replace(" ","")]
# data preprocess
if len(text) > cut_num:
    text = text[:cut_num]
else:
    text = text + ['<pad>']*(cut_num-len(text))

id_to_word = [word for word in vocab_df[0].tolist()]
word_to_id = {word:i for i, word in enumerate(id_to_word)}
text_encoded = []
for each in text:
    cur_id = word_to_id.get(each)
    if not cur_id:
        cur_id = word_to_id.get('<unk>')
    text_encoded.append(cur_id)

print("text:{}\n{}".format(text, text_encoded))
复制代码

 

posted @   今夜无风  阅读(645)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示