上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 48 下一页
摘要: 步骤三:文档相似度的计算 在得到每一篇文档对应的主题向量后,我们就可以计算文档之间的相似度,进而完成如文本聚类、信息检索之类的任务。在Gensim中,也提供了这一类任务的API接口。 以信息检索为例。对于一篇待检索的query,我们的目标是从文本集合中检索出主题相似度最高的文档。 首先,我们需要将待 阅读全文
posted @ 2022-03-28 08:00 青竹之下 阅读(17) 评论(0) 推荐(0) 编辑
摘要: class MyCorpus(object): def __iter__(self): for line in open('mycorpus.txt'): # assume there's one document per line, tokens separated by whitespace y 阅读全文
posted @ 2022-03-27 08:00 青竹之下 阅读(19) 评论(0) 推荐(0) 编辑
摘要: gensim简介 作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这是一款具备多种功能的神器。Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内 阅读全文
posted @ 2022-03-26 08:00 青竹之下 阅读(36) 评论(0) 推荐(0) 编辑
摘要: import numpy as np import pandas as pd import torch import transformers as ppb # pytorch transformers from sklearn.linear_model import LogisticRegress 阅读全文
posted @ 2022-03-25 08:00 青竹之下 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 介绍如何使用不同的 BERT 对句子进行分类。本文中的例子深入浅出,也足以展示 BERT 使用过程中所涉及的关键概念。 除了这篇博文,我还准备了一份对应的 notebook 代码,链接如下: https://github.com/jalammar/jalammar.github.io/blob/ma 阅读全文
posted @ 2022-03-24 08:00 青竹之下 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 知识点扫盲首先要知道bert是什么,从全称Pre-training o f Deep Bidirectional Transformers for Language Understanding可以看出bert是一个深层双向的Transformer的预训练模型。这里涉及到两个概念Transformer 阅读全文
posted @ 2022-03-23 08:00 青竹之下 阅读(199) 评论(0) 推荐(0) 编辑
摘要: conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/ conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/ 阅读全文
posted @ 2022-03-22 08:00 青竹之下 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 2022-03-21 08:00:02 阅读全文
posted @ 2022-03-21 08:00 青竹之下 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 进行自动分词的技术方法。基本方法还是三种:规则法、概率统计法、深度学习法。 A. 基于字典、词库匹配的分词方法(机械分词法)该类算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。 基于词典的分词算法在传统分词算法中是应用最 阅读全文
posted @ 2022-03-20 08:00 青竹之下 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 词性是词汇的基本语法属性,通常称为词类。 上文中我们提到,词性标注遇到的最重要的问题就是词性兼类问题。那么,为什么会有词性兼类问题呢?其实,在任何一种语言中,词性兼类问题都普遍存在,汉语中尤为明显。造成词性兼类问题的原因主要有以下几点:1.汉语缺乏词形态变化,无法通过词形变化判别词类;2.汉语中,常 阅读全文
posted @ 2022-03-19 13:39 青竹之下 阅读(321) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 48 下一页