随笔分类 -  自然语言处理

摘要:GenSim——NLP工具 GenSim is an open source python library for nlp modelling. API online docs (from official site:) GenSim: topic modelling for humans. Tra 阅读全文
posted @ 2022-07-06 23:26 二球悬铃木 阅读(152) 评论(0) 推荐(0) 编辑
摘要:Word Mover's Distance Family 文本相似度评估方法 Word Mover's Distance Family (until 2020): WCD, word centroid distance WMD, word mover's distance S-WCD, superv 阅读全文
posted @ 2022-07-06 23:25 二球悬铃木 阅读(70) 评论(0) 推荐(0) 编辑
摘要:短文本、字符串的相似度计算方法一般是非深层语义的,速度比较快。 string-based, corpus-based, knowledge-based (e.g. wordnet). 常见算法有: LCS, Longest common substring Jaro-Distance, based 阅读全文
posted @ 2022-07-06 23:25 二球悬铃木 阅读(443) 评论(0) 推荐(1) 编辑
摘要:依存分析 Dependency Parsing === 句子成分依存分析主要分为两种:句法级别的和语义级别的 依存句法分析 syntactic dependency parsing 语义依存分词 semantic dependency parsing 依存分析有两种类别的方法,基于转移的(trans 阅读全文
posted @ 2019-03-01 15:47 二球悬铃木 阅读(2552) 评论(0) 推荐(0) 编辑
摘要:Elasticsearch === Elasticsearch是一个高性能高扩展性的分布式索引系统,基于apache lucene。 "官方指导文档" 可结合kibana工具进行可视化。 概念: index 索引 : 类似SQL中的一张表,索引名必须是 全小写 单词。 type(索引类型):设计初衷 阅读全文
posted @ 2019-01-23 14:56 二球悬铃木 阅读(711) 评论(0) 推荐(0) 编辑
摘要:JWPL处理维基百科数据用于NLP === 处理zhwiki "JWPL" 是一个Wikipedia处理工具,主要功能是将 "Wikipedia dump" 的文件经过处理、优化导入mysql数据库,用于NLP过程。以下以zhwiki 20170201为例。 "JWPLDataMachine" 用以 阅读全文
posted @ 2019-01-16 10:36 二球悬铃木 阅读(1134) 评论(0) 推荐(0) 编辑
摘要:语种检测language detector工具https://github.com/optimaize/language detector 官网示例小改动后的代码: 官网的“my text”不能检测出语种,通过查看源代码,并分析逻辑,得知原因是文本过短。涉及的具体类看代码中注释。 阅读全文
posted @ 2017-03-31 23:53 二球悬铃木 阅读(794) 评论(0) 推荐(0) 编辑
摘要:全文检索引擎及工具 ======== lucence lucence是一个全文检索引擎。 lucence代码级别的使用步骤大致如下: 1. 创建文档(org.apache.lucene.document.Document),并通过Document的add方法为其添加字段(lucence.docume 阅读全文
posted @ 2017-03-17 00:28 二球悬铃木 阅读(521) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示