自然语言处理 - 随笔分类 - 二球悬铃木

GenSim——NLP工具

摘要：GenSim——NLP工具 GenSim is an open source python library for nlp modelling. API online docs (from official site:) GenSim: topic modelling for humans. Tra 阅读全文

posted @ 2022-07-06 23:26 二球悬铃木阅读(208) 评论(0) 推荐(0)

短文本、字符串相似度算法

摘要：短文本、字符串的相似度计算方法一般是非深层语义的，速度比较快。 string-based, corpus-based, knowledge-based (e.g. wordnet). 常见算法有： LCS, Longest common substring Jaro-Distance, based 阅读全文

posted @ 2022-07-06 23:25 二球悬铃木阅读(524) 评论(0) 推荐(1)

Word Mover's Distance Family 文本相似度评估方法

摘要：Word Mover's Distance Family 文本相似度评估方法 Word Mover's Distance Family (until 2020): WCD, word centroid distance WMD, word mover's distance S-WCD, superv 阅读全文

posted @ 2022-07-06 23:25 二球悬铃木阅读(102) 评论(0) 推荐(0)

依存分析 Dependency Parsing

摘要：依存分析 Dependency Parsing === 句子成分依存分析主要分为两种：句法级别的和语义级别的依存句法分析 syntactic dependency parsing 语义依存分词 semantic dependency parsing 依存分析有两种类别的方法，基于转移的(trans 阅读全文

posted @ 2019-03-01 15:47 二球悬铃木阅读(2588) 评论(0) 推荐(0)

elasticsearch——海量文档高性能索引系统

摘要：Elasticsearch === Elasticsearch是一个高性能高扩展性的分布式索引系统，基于apache lucene。 "官方指导文档" 可结合kibana工具进行可视化。概念： index 索引 : 类似SQL中的一张表，索引名必须是全小写单词。 type（索引类型）：设计初衷阅读全文

posted @ 2019-01-23 14:56 二球悬铃木阅读(785) 评论(0) 推荐(0)

JWPL工具处理维基百科wikipedia数据用于NLP

摘要：JWPL处理维基百科数据用于NLP === 处理zhwiki "JWPL" 是一个Wikipedia处理工具，主要功能是将 "Wikipedia dump" 的文件经过处理、优化导入mysql数据库，用于NLP过程。以下以zhwiki 20170201为例。 "JWPLDataMachine" 用以阅读全文

posted @ 2019-01-16 10:36 二球悬铃木阅读(1175) 评论(0) 推荐(0)

语种检测

摘要：语种检测language detector工具https://github.com/optimaize/language detector 官网示例小改动后的代码：官网的“my text”不能检测出语种，通过查看源代码，并分析逻辑，得知原因是文本过短。涉及的具体类看代码中注释。阅读全文

posted @ 2017-03-31 23:53 二球悬铃木阅读(824) 评论(0) 推荐(0)

全文检索引擎及工具 Lucene Solr

摘要：全文检索引擎及工具 ======== lucence lucence是一个全文检索引擎。 lucence代码级别的使用步骤大致如下： 1. 创建文档（org.apache.lucene.document.Document），并通过Document的add方法为其添加字段（lucence.docume 阅读全文

posted @ 2017-03-17 00:28 二球悬铃木阅读(551) 评论(0) 推荐(0)

二球悬铃木

随笔分类 - 自然语言处理

公告