随笔档案「2022年4月」 - bubbleeee

LDA(Latent Dirichlet Allocation)主题模型

摘要：LDA模型用来推测文档的主题分布，将文档集中每篇文档的主题以概率的形式给出，最终可以根据主题分布来对文档进行聚类或分类 LDA 采用词袋模型。所谓词袋模型，是将一篇文档，我们仅考虑一个词汇是否出现，而不考虑其出现的顺序。在词袋模型中，“我喜欢你”和“你喜欢我”是等价的。与词袋模型相反的一个模型是n- 阅读全文

posted @ 2022-04-25 15:59 bubbleeee 阅读(354) 评论(0) 推荐(0)

Facebook-Faiss原理

摘要：Faiss是一个Facebook AI团队开源的库，全称为Facebook AI Similarity Search，该开源库针对高维空间中的海量数据（稠密向量），提供了高效且可靠的相似性聚类和检索方法，可支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。官方资源地址https://gith 阅读全文

posted @ 2022-04-20 17:53 bubbleeee 阅读(2378) 评论(0) 推荐(0)

降维方法介绍整理：SVD,PCA,LDA等

摘要：SVD降维 SVD（Singular Value Decomposition，奇异值分解）是对矩阵进行分解，假如待分解的矩阵A是一个m*n矩阵，那么对矩阵A的SVD分解即：A=U∑VT。其中U是一个m*m的矩阵；Σ是一个m*n的矩阵，Σ除了主对角线上的元素以外其他元素全为0，主对角线上元素称为奇异阅读全文

posted @ 2022-04-19 16:02 bubbleeee 阅读(1288) 评论(0) 推荐(0)

关于推荐系统冷启动中的Bandit算法

摘要：推荐系统中经常会遇到EE问题和冷启动问题，Bandit算法就是为解决这两个问题的一种在线学习算法。啥是EE问题 EE问题：又称为exploit-explore问题。 exploit就是用户确定比较感兴趣的事物，要求准确率较高。 explore就是探索用户可能感兴趣的，新的事物。因为只对用户感兴阅读全文

posted @ 2022-04-14 15:30 bubbleeee 阅读(1440) 评论(0) 推荐(0)

聚类主要算法：K-means、DBscan、层次聚类

摘要：聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。主要的聚类算法可以划分为如下几类：划分方法、层次方法、基于阅读全文

posted @ 2022-04-10 23:11 bubbleeee 阅读(1134) 评论(0) 推荐(0)

TFRecord文件的读写和处理

摘要：二进制文件包含多个tf.train.Example Example是protocol buffer数据标准实现，包含一系列tf.train.feature属性 feature是key（string）-value（bytes_list || float_list || int64_list）键值对阅读全文

posted @ 2022-04-03 11:14 bubbleeee 阅读(342) 评论(0) 推荐(0)

tornado笔记

摘要：Tornado简介 Tornado和Django、Flask一样是Python中比较主流的web框架 Tornado安装 pip install tornado Tornado框架的基本组成由一个简单的例子开始 import tornado.ioloop import tornado.web cl 阅读全文

posted @ 2022-04-03 10:55 bubbleeee 阅读(78) 评论(0) 推荐(0)

Docker笔记

摘要：Docker 使用 Google 公司推出的 Go 语言进行开发实现，基于 Linux 内核的 cgroup，namespace，以及 AUFS 类的 Union FS 等技术，对进程进行封装隔离，属于操作系统层面的虚拟化技术。由于隔离的进程独立于宿主和其它的隔离的进程，因此也称其为容器。Dock 阅读全文

posted @ 2022-04-02 16:02 bubbleeee 阅读(55) 评论(0) 推荐(0)

bubbleeee

公告

04 2022 档案