activeshj - 博客园

2018年11月

摘要：参考：https://stackoverflow.com/questions/42014458/dask-not-installing-graphviz-dependency# conda install -c conda-forge graphviz conda install -c conda- 阅读全文

posted @ 2018-11-08 11:43 activeshj 阅读(1358) 评论(0) 推荐(0)

2018年9月

Sentence Embedding

摘要：通用型单句Embedding 词向量平均词向量乘上词权重后进行累加综合考虑词频、词向量矩阵分解 http://www.hankcs.com/nlp/cs224n-sentence-embeddings.html 类似word2vec训练sentence2vec Distributed Repre 阅读全文

posted @ 2018-09-10 20:04 activeshj 阅读(530) 评论(0) 推荐(0)

LSTM

摘要： LSTM公式推导： https://blog.csdn.net/u010754290/article/details/47167979 https://blog.csdn.net/xuanyuansen/article/details/61913886 https://www.jianshu.com 阅读全文

posted @ 2018-09-07 14:38 activeshj 阅读(188) 评论(0) 推荐(0)

2018年8月

文本相似度计算

摘要： http://www.sohu.com/a/220353074_744545 编辑距离的作用主要是用来比较两个字符串的相似度的。编辑操作只有三种：插入，删除，替换。对两个字符串，将其中一个字符串经过上面的这三种操作之后，得和另外一个完全相同的字符串付出的代价就是编辑距离。例如：如果str1=” 阅读全文

posted @ 2018-08-27 20:16 activeshj 阅读(569) 评论(0) 推荐(0)

2015年1月

核函数

摘要：常见的核函数：线性核函数：K(xi, xj)=xiTxj多项式核函数：K(xi, xj)=(ϒxiTxj+r)d, ϒ > 0径向基函数（Radial Basis Function，RBF）：K(xi, xj)=exp(-ϒ||xi-xj||2), ϒ > 0sigmod ：K(xi, xj)=ta... 阅读全文

posted @ 2015-01-28 11:07 activeshj 阅读(915) 评论(0) 推荐(0)

2014年10月

RRC聚类算法

摘要： (原创文章，转载请注明出处！)RRC（recursive rectangular clustering）的基本思想是通过递归的对包含所有样本点的局域进行矩形分割来达到对数据聚类的目的。算法来至文章Eigentaste: A Constant Time Collaborative Filtering ... 阅读全文

posted @ 2014-10-13 11:08 activeshj 阅读(327) 评论(0) 推荐(0)

推荐系统（五）

摘要： (原创文章，转载请注明出处！)协同过滤算法（Collaborative Filtering）基于的根据是，类似的人会喜好类似的物品。如果将用户进行聚类，当来了新用户，将新用户归到相应的类，用类的评分结果来形成新用户的推荐结果。在文章 Collaborative Filtering Based on ... 阅读全文

posted @ 2014-10-09 17:50 activeshj 阅读(455) 评论(0) 推荐(0)

推荐系统（四）

摘要： (原创文章，转载请注明出处！)用户对物品的推荐数据通常形成一个巨大的矩阵，而且通常用户的数量比物品的数量多，可以通过SVD（奇异值分解）来将矩阵分解，减少计算中使用的数据量，降低计算的复杂度。假设数据R是m x n矩阵，m个用户，n个物品，通过奇异值分解，R=U∑VT。那么将R投影到低维的k（k =... 阅读全文

posted @ 2014-10-09 09:50 activeshj 阅读(216) 评论(0) 推荐(0)

2014年9月

推荐系统（三）

摘要： (原创文章，转载请注明出处！)推荐系统关注的是人与物品，希望预测出人对物品的喜欢程度。不同的人有相近的喜好（比如：都喜欢武侠小说），不同的物品有相近的特征（比如：都是武侠小说）。当想预测一个用户A对其还没有评价的的物品T的评分时，可以从两个角度来考虑：找和用户A有相近喜欢的人，通过他们对物品T的评分... 阅读全文

posted @ 2014-09-15 22:46 activeshj 阅读(284) 评论(0) 推荐(0)

推荐系统（二）

摘要： (原创文章，转载请注明出处！)一、问题实现对电影的推荐，数据集中有约1600部电影，有约900个用户对这些电影进行了评价。设每个电影有10个特征，根据推荐系统（一）描述的算法，每个用户也相应的有10的参数，那么总的参数个数 ≈ 1600 * 10 + 900 * 10 ≈ 16000 + 9000 ... 阅读全文

posted @ 2014-09-10 23:03 activeshj 阅读(417) 评论(0) 推荐(0)

应用高斯分布来解决异常检测问题（三）

摘要： (原创文章，转载请注明出处！)本篇来解决一个异常检测问题。样本数据约300个，无标签的二维数据。此外，还有一个有标签的验证数据集，包含约300个样本。一、将每个维度数据的直方图plot出来1 hist(X[,1], breaks=seq(from=floor(min(X[,1])),to=ceili... 阅读全文

posted @ 2014-09-06 15:16 activeshj 阅读(720) 评论(0) 推荐(0)

应用高斯分布来解决异常检测问题（二）

摘要： (原创文章，转载请注明出处！)在文章应用高斯分布来解决异常检测问题（一）中对如何使用高斯分布来解决异常检测问题进行了描述，本篇是使用R编程实现了第一篇中所描述的两个模型：多个一元高斯分布模型和一个多元高斯分布模型。一、多个一元高斯分布模型 1 ## parameters: 2 ## xNe... 阅读全文

posted @ 2014-09-06 13:50 activeshj 阅读(535) 评论(0) 推荐(0)

应用高斯分布来解决异常检测问题（一）

摘要： (原创文章，转载请注明出处！)异常检测的样本数据，可能有标签，但通常正常状况的样本很多，异常状况的样本很少，并且出异常的原因通常也不尽相同。所以，可以只针对正常状况的样本建模。而如果收集到一堆的数据没有标签，则可以对所有的样本数据用一个模型建模，因为通常数据中异常状况的样本很少，对最终模型的影响很小... 阅读全文

posted @ 2014-09-03 17:36 activeshj 阅读(3152) 评论(0) 推荐(0)

高斯（正态）分布、GDA、Mixtures of Gaussian

摘要： (原创文章，转载请注明出处！)高斯分布的密度函数一元高斯分布：p(x;μ,σ2)=(1/{sqrt(2π)*σ}) * exp{-(x-μ)2/(2σ2)}期望：E(X) = μ；方差：D(X) = σ2二元高斯分布：p(x1,x2;μ1,μ2,σ12,σ22)={ 1 / [2π*σ1σ2*sqr... 阅读全文

posted @ 2014-09-01 09:21 activeshj 阅读(1281) 评论(0) 推荐(0)

2014年8月

主成分分析

摘要： (原创文章，转载请注明出处！)一、主成分分析的作用主成分分析（PCA）是通过一些方法将高维的训练数据映射到低维，起到一个训练数据降维的作用。这样一方面能消除训练数据中冗余特征，另一方面能提升训练算法的运行效率，还能减少对存储资源的占用；如果是降维到2D或者3D，还能用2D、3D的展示技术将数据显示出... 阅读全文

posted @ 2014-08-16 09:51 activeshj 阅读(1433) 评论(0) 推荐(0)

logistic回归

摘要： (原创文章，转载请注明出处！)用logistic回归来解决分类问题。模型的值域是[0,1]，用0.5作为分类的阈值。模型的输出是：P(y=1|x;θ)，即：对给定的输入x，和确定的参数θ，事件“y=1”的概率。那么可以选择sigmoid函数： 1/(1+e-z) ，z∈R，值域为[0,1]，在log... 阅读全文

posted @ 2014-08-07 22:36 activeshj 阅读(1208) 评论(0) 推荐(0)

推荐系统（一）

摘要： (原创文章，转载请注明出处！)如何给用户自动的推荐产品？比如推荐书。让用户给他看过的书打分，比如: 0、1、2、3、4、5分。用户可以有很多个，书也可以有很多本不同的。用户给书打分就形成了一个二维表格：用户A用户B用户C用户D用户E小说151442小说24144?小说3??5?1小说43??2?小说... 阅读全文

posted @ 2014-08-07 21:59 activeshj 阅读(226) 评论(0) 推荐(0)

基于朴素贝叶斯模型的文本分类

摘要： (原创文章，转载请注明出处！)一、朴素贝叶斯模型模型一：将一个文本文档使用一个词的向量来表示。通常文档中出现的词的个数是有限的，假设要将文档分成两类（类别0、1），分类的所有文档可能出现100个词（词典中词的个数，在实际应用中，选择训练文档中出现次数最多的n个词，n从10000到50000），那么一... 阅读全文

posted @ 2014-08-07 21:53 activeshj 阅读(613) 评论(0) 推荐(0)

K均值聚类算法

摘要： (原创文章，转载请注明出处！)一、K均值聚类算法K均值聚类的训练数据是向量，假设样本点是三维向量，它们没有类别标示。所以，第一步: 要确定聚类中心的个数，比如：3个；然后初始化聚类中心，比如：μ1、μ2、μ3。第二步: 计算训练数据中的每一个样本点到分别到这三个聚类中心的距离||x-μ1||2，对... 阅读全文

posted @ 2014-08-07 21:33 activeshj 阅读(1023) 评论(0) 推荐(0)

公告