随笔分类 - 机器学习
【NLP学习其五】pytorch模型保存与载入的注意事项(记问题No module named 'model')
摘要:这是一次由于路径问题(找不到模型)引出模型保存问题的记录 最近,我试着把使用GPU训练完成的模型部署至预发布环境时出现了一个错误,以下是log节选 unpickler.load() ModuleNotFoundError: No module named 'model' 问题分析 当时我很奇怪,因为
【NLP学习其四】如何构建自己用于训练的数据集?什么是词性标注?
摘要:数据集与词性标注 数据集是NLP中的重要一环。 但是提到数据集,很多人的第一个想法可能是:“这玩意从网上下载就好了,不用管”。 真的不用管?最开始我也是这么认为的 于是我直奔CoNLL-2003去下载数据集。地址如下:https://www.clips.uantwerpen.be/conll2003
【NLP学习其3.5】词嵌入的特性,为什么词之间会有联系?
摘要:词嵌入的特性 现在你有了一堆嵌入向量,我们可以开始学习他们之间的特性了 前情提要:https://www.cnblogs.com/DAYceng/p/14962528.html 先把各向量重新命名便于区分 Man对应e_man① Woman对应e_woman② King对应e_king③ Queen
【NLP学习其三】在学习什么是嵌入之前,你应该了解什么是词语表征
摘要:在了解什么是**嵌入(embeddings)**之前,我们需要先搞清楚一个词语在NLP中是如何被表示的 注:本次不涉及任何具体算法,只是单纯对概念的理解 词汇表征 One-Hot 词汇的表示方法有很多,最有名的肯定是独热编码(One-Hot )了。因为不是重点,所以下面只简单介绍一下 废话不多说,上
Pytorch项目基本结构
摘要:梳理一下Pytorch项目的基本结构(其实TF的也差不多是这样,这种思路可以迁移到别的深度学习框架中) 结构树 checkpoints #存放训练完成的模型文件 xxx.pkl #模型文件 data #存放数据文件(如txt)或者数据预处理文件 __ init __.py xxx.txt
【NLP学习其二】什么是隐马尔可夫模型HMM?
摘要:概念 隐马尔可夫模型描述的是两个时序序列联合分布p(x,y)的概率模型,其中包含了两个序列: x序列外界可见(外界指的是观测者),称为观测序列(obsevation seuence) y序列外界不可见,称为状态序列( state sequence) 如观测x为单词,状态y为词性,我们需要根据单词序列