海量数据检索的利器
检索:解决的最大问题就是如何做到低延迟、快速匹配
采用局部敏感哈希:lsh
FaceBook的开源数据包:pysparnn
解决问题:稀疏数据的近邻搜索!
源代码网址:http://www.github.com/facebookresearch/pysparnn
测试源码:
""" test """ import os import pysparnn.cluster_index as ci from sklearn.feature_extraction.text import TfidfVectorizer DIR_PATH = os.path.dirname(os.path.abspath(__file__)) data = [ "你好 世界", "哦 世界 在这里", "和 他 一起 玩", "你 喜欢 玩 篮球", ] tv = TfidfVectorizer() tv.fit(data) # 特征向量 features_vec = tv.transform(data) # 建立搜索索引 cp = ci.MultiClusterIndex(features_vec, data) # 搜索带有索引的 search_data = [ "哦 在这里", "我 喜欢 玩 足球" ] search_feature_vec = tv.transform(search_data) # k是返回的个数,k_clusters代表聚类的个数 print(cp.search(search_feature_vec, k=1, k_clusters=2, return_distance=False))
返回结果:
希望能在实际的应用中帮到你!
时刻记着自己要成为什么样的人!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)