2020 年 5月随笔档案 - 今夜无风

高效python代码持续积累

摘要：有时候经常容易忘一些快速的数据实现结构，从此做一些记录。 1. 根据二维数组首元素排序，如下： data = [[2,3],[5,4],[9,6],[4,7],[8,1]] data.sort(key=lambda x:x[0]) print(data) [[2, 3], [4, 7], [5, 4 阅读全文

posted @ 2020-05-20 09:12 今夜无风阅读(317) 评论(0) 推荐(0) 编辑

nltk.probability.FreqDist 自动识别语料库中词汇的频率分布

摘要：自动识别语料库中词汇的频率分布方法描述 fdist=FreqDist(samples) 创建包含给定样本的频率分布（samples可以是nltk.text.Text、空格分割的字符串、列表或者其他） fdist.inc(sample) 增加样本 fdist[word] word在样本中出现的次数阅读全文

posted @ 2020-05-18 14:18 今夜无风阅读(472) 评论(0) 推荐(0) 编辑

wwsearch 全文检索引擎

摘要：地址：https://github.com/Tencent/wwsearch/blob/master/doc/wwsearch-implement.md 背景企业微信作为典型企业服务系统，其众多企业级应用都需要全文检索能力，包括员工通讯录、企业邮箱、审批、汇报、企业CRM、企业素材、互联圈子等。阅读全文

posted @ 2020-05-07 16:19 今夜无风阅读(765) 评论(0) 推荐(0) 编辑

构建倒排索引快速减速

摘要：功能实现： input：查询词 output：存现的对应的文档中的所有行号id 实现：阅读全文

posted @ 2020-05-07 15:29 今夜无风阅读(244) 评论(0) 推荐(0) 编辑

Time-NLP---中文时间表达词转换---统一抽取段落中的时间信息

摘要：对一段文本中的人、事、地、物、组织、时间等关键要素进行抽取，以为下游提供数据支撑。针对时间抽取，发现一个小工具，分享给大家：开源地址： https://github.com/zhanzecheng/Time_NLP 功能：用于句子中时间词的抽取和转换使用示例： res = tn.parse(t 阅读全文

posted @ 2020-05-07 09:27 今夜无风阅读(1508) 评论(0) 推荐(0) 编辑

05 2020 档案

公告