05 2020 档案

摘要:有时候经常容易忘一些快速的数据实现结构,从此做一些记录。 1. 根据二维数组首元素排序,如下: data = [[2,3],[5,4],[9,6],[4,7],[8,1]] data.sort(key=lambda x:x[0]) print(data) [[2, 3], [4, 7], [5, 4 阅读全文
posted @ 2020-05-20 09:12 今夜无风 阅读(310) 评论(0) 推荐(0) 编辑
摘要:自动识别语料库中词汇的频率分布 方法描述 fdist=FreqDist(samples) 创建包含给定样本的频率分布(samples可以是nltk.text.Text、空格分割的字符串、列表或者其他) fdist.inc(sample) 增加样本 fdist[word] word在样本中出现的次数 阅读全文
posted @ 2020-05-18 14:18 今夜无风 阅读(448) 评论(0) 推荐(0) 编辑
摘要:地址:https://github.com/Tencent/wwsearch/blob/master/doc/wwsearch-implement.md 背景 企业微信作为典型企业服务系统,其众多企业级应用都需要全文检索能力,包括员工通讯录、企业邮箱、审批、汇报、企 业CRM、企业素材、互联圈子等。 阅读全文
posted @ 2020-05-07 16:19 今夜无风 阅读(734) 评论(0) 推荐(0) 编辑
摘要:功能实现: input: 查询词 output:存现的对应的文档中的所有行号id 实现: 阅读全文
posted @ 2020-05-07 15:29 今夜无风 阅读(241) 评论(0) 推荐(0) 编辑
摘要:对一段文本中的人、事、地、物、组织、时间等关键要素进行抽取,以为下游提供数据支撑。针对时间抽取,发现一个小工具,分享给大家: 开源地址: https://github.com/zhanzecheng/Time_NLP 功能: 用于句子中时间词的抽取和转换 使用示例: res = tn.parse(t 阅读全文
posted @ 2020-05-07 09:27 今夜无风 阅读(1438) 评论(0) 推荐(0) 编辑