随笔分类 - NLP
摘要:TF-IDF算法与TextRank算法 基于TF-IDF算法的关键词提取 基本语法 jieba.analyse.extract_tags(sentense,topK=20,withWeight=False,allowPOS=()) sentense:待提取的文本 topK:返回权重较大的前多少个关键
阅读全文
摘要:AI自然语言处理常用的术语 .Attention 机制:Attention的本质是从关注全部到关注重点。将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。 Encoder-Decoder是一类算法的统称,在这个框架下可以使用不同的算法来解决不同的任务。Encoder-Decoder
阅读全文
摘要:NLP工具汇总 NLTK 主要用来处理英文 命名实体识别 词性还原(英文) Stanford NLP 主要用来处理英文 命名实体识别 Trankit 依存句法分析 word2vec 一种的词向量表的表示方式 Word2vec 是代码项目的名字,只是计算词嵌入(word embedding)的一个工具
阅读全文
摘要:文本的表示方法有哪些 基于one-hot、tf-idf、textrank 等的bag-of-words 主题模型:LSA (SVD) 、pLSA、LDA 基于词向量的固定表征: Word2vec、FastText、GloVe 基于词向量的动态表征:ELMo、GPT、BERT
阅读全文
摘要:词向量 几个概念 词嵌入(word embedding):把文本转换成数值形式,或者说——嵌入到一个数学空间里,而 词向量:一个单词所对应的向量,向量之间的数学关系可以表示单词之间的语义关系 词的离散式表示 ***one-hot *** Bag of Words(词袋模型) 没有表达单词在原来句子中
阅读全文
摘要:中文分词:双向匹配最大算法(BI-MM) 启发式规则: 1.如果正反向分词结果词数不同,则取分词数量较少的那个 2.如果分词结果词数相同 分词结果相同,就说明没有歧义,可返回任意一个 分词结果不同,返回其中单字较少的那个 代码实现 #使用双向最大匹配算法实现中文分词 words_dic = [] i
阅读全文
摘要:中文分词:逆向匹配最大算法 反向最大匹配法的基本原理与正向最大匹配法类似只是分词顺序变为从右至左。般从一个字符串的开始位置,选择一个最大长度的词长的片段,如果序列不足最大词长,则选择全部序列。 代码实现 #使用逆向最大匹配算法实现中文分词 words_dic = [] def init(): '''
阅读全文
摘要:中文分词:正向匹配最大算法 正向最大匹配法,对于输入的一段文本从左至右、以贪心的方式切出当前位置上长度最大的词。正向最大匹配法是基于词典的分词方,其分词原理是:单词的颗粒度越大,所能表示的含义越确切。该算法主要分两个步骤: 1、一般从一个字符串的开始位置,选择一个最大长度的词长的片段,如果序列不足最
阅读全文
摘要:在安装pyhanlp报错:Could not find a version that satisfies the requirement pyhanlp - 命令行输出 pip install pyhanlp时会报错,试了很多种方法不太行。我就直接下载了pyhanlp的文件,链接地址 - 再在命令行
阅读全文