摘要:
gpt帮忙生成的笔记哈哈哈,仅供参考 Docker 常用命令的详细说明。 docker run 创建并运行一个新的容器。 语法: docker run [OPTIONS] IMAGE [COMMAND] [ARG...] 常用参数: -d:后台运行容器。 -p:将容器端口映射到宿主机端口。 -v:将 阅读全文
摘要:
准备 需要安装libreoffice这个软件 下载地址:https://www.libreoffice.org/download/download/ 代码 import os import subprocess source = "doc文件夹路径" dest = "要转换的docx文件夹路径"# 阅读全文
摘要:
tensorflow-CPU tensorflow-GPU 使用GPU版本,记得安装CUDA和cuDNN。 安装命令 pip install tensorflow==version pip install tensorflow-gpu==version 下载地址 CUDA:https://devel 阅读全文
摘要:
LDA模型用来推测文档的主题分布,将文档集中每篇文档的主题以概率的形式给出,最终可以根据主题分布来对文档进行聚类或分类 LDA 采用词袋模型。所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑其出现的顺序。在词袋模型中,“我喜欢你”和“你喜欢我”是等价的。与词袋模型相反的一个模型是n- 阅读全文
摘要:
Faiss是一个Facebook AI团队开源的库,全称为Facebook AI Similarity Search,该开源库针对高维空间中的海量数据(稠密向量),提供了高效且可靠的相似性聚类和检索方法,可支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。 官方资源地址https://gith 阅读全文
摘要:
SVD降维 SVD(Singular Value Decomposition,奇异值分解)是对矩阵进行分解,假如待分解的矩阵A是一个m*n矩阵,那么对矩阵A的SVD分解即:A=U∑VT。 其中U是一个m*m的矩阵;Σ是一个m*n的矩阵,Σ除了主对角线上的元素以外其他元素全为0,主对角线上元素称为奇异 阅读全文
摘要:
推荐系统中经常会遇到EE问题和冷启动问题,Bandit算法就是为解决这两个问题的一种在线学习算法。 啥是EE问题 EE问题: 又称为exploit-explore问题。 exploit就是用户确定比较感兴趣的事物,要求准确率较高。 explore就是探索用户可能感兴趣的,新的事物。 因为只对用户感兴 阅读全文
摘要:
聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。 主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于 阅读全文
摘要:
二进制文件 包含多个tf.train.Example Example是protocol buffer数据标准实现,包含一系列tf.train.feature属性 feature是key(string)-value(bytes_list || float_list || int64_list)键值对 阅读全文
摘要:
Tornado简介 Tornado和Django、Flask一样是Python中比较主流的web框架 Tornado安装 pip install tornado Tornado框架的基本组成 由一个简单的例子开始 import tornado.ioloop import tornado.web cl 阅读全文
摘要:
Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,namespace,以及 AUFS 类的 Union FS 等技术,对进程进行封装隔离,属于操作系统层面的虚拟化技术。由于隔离的进程独立于宿主和其它的隔离的进程,因此也称其为容器。Dock 阅读全文
摘要:
DSSM模型全称:Deep Structure Semantic Model 在应⽤于推荐系统时,通过两个塔分别去建模user侧和item侧的embedding,计算embedding之间 的内积,最后⽤真实的label计算loss。 ⼀些经典的双塔模型 1. MicroSoft-DSSM 双塔模型 阅读全文
摘要:
FastText是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“有监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。 FastText结合了自然语言处理和机器学习中最成功的理念。包括使用词袋以及n-gram袋表征语句,还 阅读全文
摘要:
from xx import xxx 和 import xxx from A import a:为从A模块导入a(函数,全局变量,类);在内存中创建副本,与其它导入相同模块的不共用 import A:导入A模块的全部内容;会在内存中直接加载该模块的全部属性。当出现多个程序导入该模块时,会共用一个模块 阅读全文
摘要:
DeepCTR框架,作者是阿里大佬浅梦 【官方文档:https://deepctr-doc.readthedocs.io/en/latest/】 主要是对目前的一些基于深度学习的点击率预测算法进行了实现,如PNN,WDL,DeepFM,MLR,DeepCross,AFM,NFM,DIN,DIEN,x 阅读全文
摘要:
textRNN textRNN利用RNN循环神经网络解决文本分类问题 流程:embedding—>BiLSTM—>concat final output/average all output—–>softmax layer 一般取前向/反向LSTM在最后一个时间步长上隐藏状态,然后进行拼接,在经过一 阅读全文
摘要:
LSTM LSTM的全称是Long Short Term Memory,顾名思义,是具有记忆长短期信息的能力的神经网络。LSTM首先在1997年由Hochreiter & Schmidhuber提出,由于深度学习在2012年的兴起,LSTM又经过了若干代大牛的发展形成了比较系统且完整的LSTM框架, 阅读全文
摘要:
Doc2bow是封装于Gensim中的方法,主要是实现bow模型 bow模型(词袋)模型使用一组单词(无序)来表示一个句子 先根据语料构建词典 每个句子可以用词典长度的一维向量来表示,向量不关心单词出现的顺序,只表示该位置的单词在样本中出现的频率。 gensim.corpora.Dictionary 阅读全文
摘要:
推荐系统里用到了item-cf,系统总结下 基于物品的协同过滤,就是item-cf。 为什么没有用基于用户的协同过滤:相较于“物品”来说,用户量更大,将所有用户和推荐用户做对比,非常耗时。用户数远大于物品数,而且物品的变更频率不高,物品的相似度相对于用户的兴趣来讲比较稳定 ItemCF不是基于物品本 阅读全文
摘要:
python-按指定文件名前缀查找文件并保留n个最新文件 阅读全文
摘要:
Request id 丢了…… 阅读全文