随笔分类 -  data mining

Word2Vec 使用总结
摘要:word2vec 是google 推出的做词嵌入(word embedding)的开源工具。 简单的说,它在给定的语料库上训练一个模型,然后会输出所有出现在语料库上的单词的向量表示,这个向量称为"word embedding"。基于这个向量表示,可以计算词与词之间的关系,例如相似性(同义词等),语义关联性(中国 - 北京 = 英国 - 伦敦)等。作为非NLP专业的人,我不在此讲述word embedding的算法原理,本文是对word2vec工具使用过程的整理与总结,方便大家尽快上手。 阅读全文

posted @ 2016-04-25 10:21 leavingseason 阅读(30093) 评论(14) 推荐(6) 编辑

用 CNTK 搞深度学习 (一) 入门
摘要:Computational Network Toolkit (CNTK) 是微软出品的开源深度学习工具包。本文介绍CNTK的基本内容,如何写CNTK的网络定义语言,以及跑通一个简单的例子。 阅读全文

posted @ 2016-04-22 00:09 leavingseason 阅读(50433) 评论(4) 推荐(6) 编辑

survival analysis 生存分析与R 语言示例 入门篇
摘要:生存分析,survival analysis,顾名思义是用来研究个体的存活概率与时间的关系。例如研究病人感染了病毒后,多长时间会死亡;工作的机器多长时间会发生崩溃等。 这里“个体的存活”可以推广抽象成某些关注的事件。 所以SA就成了研究某一事件与它的发生时间的联系的方法。这个方法广泛的用在医学、生物学等学科上,近年来也越来越多人用在互联网数据挖掘中,例如用survival analysis去预测信息在社交网络的传播程度,或者去预测用户流失的概率。 R里面有很成熟的SA工具。 本文介绍生存分析的基本概念和一些公式,以及R语言应用示例。 阅读全文

posted @ 2016-03-16 22:17 leavingseason 阅读(39495) 评论(0) 推荐(2) 编辑

Self Organizing Maps (SOM): 一种基于神经网络的聚类算法
摘要:自组织映射神经网络, 即Self Organizing Maps (SOM), 可以对数据进行无监督学习聚类。它的思想很简单,本质上是一种只有输入层--隐藏层的神经网络。隐藏层中的一个节点代表一个需要聚成的类。训练时采用“竞争学习”的方式,每个输入的样例在隐藏层中找到一个和它最匹配的节点,称为它的激活节点,也叫“winning neuron”。 紧接着用随机梯度下降法更新激活节点的参数。同时,和激活节点临近的点也根据它们距离激活节点的远近而适当地更新参数。 阅读全文

posted @ 2016-01-09 19:20 leavingseason 阅读(67613) 评论(3) 推荐(3) 编辑

最大似然估计 (MLE) 最大后验概率(MAP)
摘要:本文回顾最大似然估计,最大后验概率的知识。这是两个概率统计数据挖掘中非常常见的知识点,属于比较容易学的。 阅读全文

posted @ 2015-12-18 19:42 leavingseason 阅读(89069) 评论(11) 推荐(16) 编辑

Expectation maximization - EM算法学习总结
摘要:EM算法学习总结。包括推导证明和一个具体GMM实例。 阅读全文

posted @ 2015-12-17 17:25 leavingseason 阅读(21053) 评论(0) 推荐(1) 编辑

数据挖掘类竞赛经验总结与分享:人人都可以是赢家
摘要:数据挖掘竞赛 总结。 今年共参加了3次竞赛。 不同的类型,不同的平台,不同的收获。天池 kaggle 阅读全文

posted @ 2015-12-10 17:46 leavingseason 阅读(16659) 评论(6) 推荐(4) 编辑

用R分析时间序列(time series)数据
摘要:时间序列 time series分析。用R语言实现。 时间序列预测的应用很广,例如天气预报,股市分析等等。 本文主要用R来演示time series预测模型,包含Holt-Winters和ARIMA。 阅读全文

posted @ 2015-03-11 11:52 leavingseason 阅读(176759) 评论(34) 推荐(5) 编辑

快速用梯度下降法实现一个Logistic Regression 分类器
摘要:logistic regression , 梯度下降法 阅读全文

posted @ 2015-02-14 17:31 leavingseason 阅读(8165) 评论(0) 推荐(1) 编辑

导航

Bye!