摘要:LDA模型用来推测文档的主题分布,将文档集中每篇文档的主题以概率的形式给出,最终可以根据主题分布来对文档进行聚类或分类 LDA 采用词袋模型。所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑其出现的顺序。在词袋模型中,“我喜欢你”和“你喜欢我”是等价的。与词袋模型相反的一个模型是n-
阅读全文
04 2022 档案
摘要:Faiss是一个Facebook AI团队开源的库,全称为Facebook AI Similarity Search,该开源库针对高维空间中的海量数据(稠密向量),提供了高效且可靠的相似性聚类和检索方法,可支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。 官方资源地址https://gith
阅读全文
摘要:SVD降维 SVD(Singular Value Decomposition,奇异值分解)是对矩阵进行分解,假如待分解的矩阵A是一个m*n矩阵,那么对矩阵A的SVD分解即:A=U∑VT。 其中U是一个m*m的矩阵;Σ是一个m*n的矩阵,Σ除了主对角线上的元素以外其他元素全为0,主对角线上元素称为奇异
阅读全文
摘要:推荐系统中经常会遇到EE问题和冷启动问题,Bandit算法就是为解决这两个问题的一种在线学习算法。 啥是EE问题 EE问题: 又称为exploit-explore问题。 exploit就是用户确定比较感兴趣的事物,要求准确率较高。 explore就是探索用户可能感兴趣的,新的事物。 因为只对用户感兴
阅读全文
摘要:聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。 主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于
阅读全文
摘要:二进制文件 包含多个tf.train.Example Example是protocol buffer数据标准实现,包含一系列tf.train.feature属性 feature是key(string)-value(bytes_list || float_list || int64_list)键值对
阅读全文
摘要:Tornado简介 Tornado和Django、Flask一样是Python中比较主流的web框架 Tornado安装 pip install tornado Tornado框架的基本组成 由一个简单的例子开始 import tornado.ioloop import tornado.web cl
阅读全文
摘要:Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,namespace,以及 AUFS 类的 Union FS 等技术,对进程进行封装隔离,属于操作系统层面的虚拟化技术。由于隔离的进程独立于宿主和其它的隔离的进程,因此也称其为容器。Dock
阅读全文