上一页 1 2 3 4 5 6 ··· 12 下一页

2017年12月17日

simrank

摘要: simrank背景度量相似度是许多应用的关键问题。传统方法与问题的领域相关,如文本匹配、计算交集。simrank则利用关联关系度量相似性,即“两个节点的相似性和各自邻域节点的相似度有关”。算法simrank的核心公式:当,并且,时,当,当,或者通过多轮迭代,可以收敛。mapreduce实现利用mapreduce,容易进行上述的迭代计算。(1)初始状态:相似度矩阵是单位阵:邻接集合列,(2)每轮迭... 阅读全文

posted @ 2017-12-17 19:19 zjgtan 阅读(630) 评论(0) 推荐(0) 编辑

2017年12月9日

query聚类技术

摘要: query聚类目的query聚类主要有以下两个目的解决query空间稀疏问题(长尾query)挖掘用户意图(一条行为包含的意图是稀疏的,当有一簇行为时,意图更明确)可以说聚类是构建内容模型的重要手段Content Based聚类Content based聚类基于query本身,即两个query包含相同的term。优点是可以将形态相似的query聚到一起,但是会遗漏掉意图相同但query形态不同的... 阅读全文

posted @ 2017-12-09 20:37 zjgtan 阅读(1027) 评论(0) 推荐(1) 编辑

2017年4月14日

文本生成论文集

摘要: 文本生成论文集论文0题目《Generating Text with Recurrent Neural Networks》解决问题:(1)句子压缩(2)文本生成要点:(1)提出了新的rnn结构(MRNN)本文表示能够提升文本生成能力,但名气比较小论文1题目《Generating Sequences With Recurrent Neural Networks》代码:https://sourcefo... 阅读全文

posted @ 2017-04-14 13:45 zjgtan 阅读(2418) 评论(0) 推荐(0) 编辑

文本生成模型

摘要: 文本生成模型序列模型问题对于一个序列预测问题:(1)输入的时间变化序列:(2)在t时刻通过模型预测下一时刻,即:难点(1)内部状态难以建模、观察(2)长时间窗口内的状态难以建模、观察建模思路(1)引入内部的隐状态变量simple RNNrnn的基本结构如下:前向传播其中:(1)是t时刻输入(2)是状态层,在0时刻初始化(3)函数是激励函数(sigmoid, tanh)(4)是输出层函数(soft... 阅读全文

posted @ 2017-04-14 13:40 zjgtan 阅读(1510) 评论(0) 推荐(0) 编辑

2017年3月30日

gibbs采样

摘要: gibbs采样关键字一关键字二参数估计与预测机器学习的一般思路为:1.从问题的本质中构建模型,定义样本的产生,有联合概率(图模型)。2.进行模型参数的估计:MLE、MAP、Bayes。3.使用模型对新样本进行估计。MLE:极大似然估计估计:解优化函数预测:MAP:极大后验估计估计:解优化函数预测:对比极大似然估计,引入了关于的先验知识。Bayes估计估计:后验概率预测:对于MLE和MAP算法,对... 阅读全文

posted @ 2017-03-30 17:43 zjgtan 阅读(4955) 评论(0) 推荐(0) 编辑

2014年10月24日

latex

摘要: \(\alpha+\beta\geq\frac12\) 阅读全文

posted @ 2014-10-24 11:31 zjgtan 阅读(142) 评论(0) 推荐(0) 编辑

Boosting and Its Application in LTR

摘要: 1 Boosting概述2 Classification and Regression Tree3 AdaBoost3.1 算法框架3.2 原理:Additive Modeling4 Gradient Boosting Machine4.1 理论基础:Numerical Optimization4.... 阅读全文

posted @ 2014-10-24 10:25 zjgtan 阅读(281) 评论(0) 推荐(0) 编辑

2014年9月3日

lda:变分的推导

摘要: lda,latent diriclet allocation,是一个最基本的bayesian模型。本文要研究lda基于变分的推导方法。意义是重大的。一、符号的定义: the number of topics: the number of documents: the number of terms in vocabulary: index topic: index document: i... 阅读全文

posted @ 2014-09-03 09:57 zjgtan 阅读(1740) 评论(0) 推荐(0) 编辑

2014年8月8日

topic model

摘要: 0、基石——贝叶斯推断计算后验概率即为我们对参数的估计:其中: ——输入数据 ——待估计的参数 ——似然分布 ——参数的先验分布对新样本的预测:我们要估计的概率1、常用的概率分布Dirichlet Distribution2、文本建模2.1 基本模型——unigram model最基本的一种文本模型。我们做这样的假设:语料库是从词表中独立的抽取的个。有似然方程其中是t... 阅读全文

posted @ 2014-08-08 23:45 zjgtan 阅读(1195) 评论(1) 推荐(0) 编辑

2014年8月7日

c++基础知识篇:指针

摘要: 从面试的反馈来看,这部分可以问的很难。1、指针与引用的区别指针是一个变量,用来存放地址的变量。引用是原来变量的存储空间的别名。2、指针作为参数的要点a、需要进行指针的合法性检验,防止空指针。b、需要修改指针本身指向的地址时,参数需要是该指针的引用。3、c++程序运行空间数据区(Data Area):全局变量、静态变量、常量存放在数据区。代码区(Code Area):所有类成员函数和非成员函数栈... 阅读全文

posted @ 2014-08-07 20:15 zjgtan 阅读(569) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 12 下一页

导航