海量数据检索的利器

检索:解决的最大问题就是如何做到低延迟、快速匹配

  采用局部敏感哈希:lsh

  FaceBook的开源数据包:pysparnn

  解决问题:稀疏数据的近邻搜索!

  源代码网址:http://www.github.com/facebookresearch/pysparnn

测试源码:

复制代码
"""
    test
"""
import os
import pysparnn.cluster_index as ci
from sklearn.feature_extraction.text import TfidfVectorizer
DIR_PATH = os.path.dirname(os.path.abspath(__file__))


data = [
    "你好 世界",
    "哦 世界 在这里",
    "和 他 一起 玩",
    "你 喜欢 玩 篮球",
]

tv = TfidfVectorizer()
tv.fit(data)
# 特征向量
features_vec = tv.transform(data)

# 建立搜索索引
cp = ci.MultiClusterIndex(features_vec, data)

# 搜索带有索引的
search_data = [
    "哦 在这里",
    "我 喜欢 玩 足球"
]

search_feature_vec = tv.transform(search_data)

# k是返回的个数,k_clusters代表聚类的个数
print(cp.search(search_feature_vec, k=1, k_clusters=2, return_distance=False))
复制代码

返回结果:

 

希望能在实际的应用中帮到你! 

 

posted @   今夜无风  阅读(356)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示