摘要:
Hadoop Streaming示例程序(wordcount) run_hadoop_word_counter.sh mapper_word_counter.py reducer_word_counter.py 纯文本输入格式 每个mapper输入若干行 \ inputformat "org.apa 阅读全文
摘要:
相关WebAPI Touch: https://developer.mozilla.org/en US/docs/Web/API/Touch/Touch TouchEvent: https://developer.mozilla.org/en US/docs/Web/API/TouchEvent/T 阅读全文
摘要:
指定分隔符 HIVE输出到文件的分隔符 ,列与列之间是'\1'(ASCII码1,在vim里显示为^A),列内部随着层数增加,分隔符依次为'\2','\3','\4'等。 例:输出为map, array, int类型,则分隔符为: key1 \3 value1 \2 key2 \3 value2 .. 阅读全文
摘要:
Josef和Andrew在2003年的ICCV上发表的论文[10]中,将文档检索的方法借鉴到了视频中的对象检测中。他们首先将图像的特征描述类比成单词,并建立了基于SIFT特征的vusual word dictionary,结合停止词、TF-IDF和余弦相似度等思想检索包含相同对象的图像帧,最后基于局部特征的匹配和空间一致性完成了对象的匹配。文档检索与计算机视觉之间渊源颇深,在CV领域常常会遇到要将图像的多个局部特征描述融合为一条特征向量的问题,比如常用的BoVW、VLAD和Fisher Vector等。下面,我们从文档检索为切入点,简单学习下这些局部特的融合方法。 阅读全文
摘要:
这次介绍的是Alex和Alessandro于2014年发表在的Science上的一篇关于聚类的文章[13],该文章的基本思想很简单,但是其聚类效果却兼具了谱聚类(Spectral Clustering)[11,14,15]和K-Means的特点,着实激起了我的极大的兴趣,该聚类算法主要是基于两个基本点:1)聚类中心的密度高于其临近的样本点的密度;2)聚类中心与比其密度还高的聚类中心的距离相对较大.基于这个思想,聚类过程中的聚类中心数目可以很直观的选取,离群点也能被自动检测出来并排除在聚类分析外。无论每个聚类的形状是什么样的,或者样本点的维度是多少,聚类分析的结果都能令人很满意。下面我会主要基于这篇文章来详述该聚类算法的来龙去脉,并简单回顾下相关的聚类算法。最后,基于这篇文章思想,我最终用C++代码实现了一个比较完整的聚类算法,并作为我在GitHub上的first repository上传到了GitHub上面,有需要的请前往https://github.com/jeromewang-github/cluster-science2014下载,欢迎大家找出bug和提供修改意见! 阅读全文
摘要:
写机器学习相关博文,经常会碰到很多公式,而Latex正式编辑公式的利器。目前国内常用的博客系统,好像只有博客园支持,所以当初选择落户博客园。我现在基本都是用Latex写博文,然后要发表到博客园上与大家共享,就又得经历一番功夫:首先,将Latex源码拷贝到博文的HTML源码编辑器中;然后,修改... 阅读全文
摘要:
Markov Chain马尔科夫链(Markov chain)是一个具有马氏性的随机过程,其时间和状态参数都是离散的。马尔科夫链可用于描述系统在状态空间中的各种状态之间的转移情况,其中下一个状态仅依赖于当前状态。因为系统是随机变化的,所以不可能百分百预测出未来某个时刻的系统状态,但是我们可以预测出未... 阅读全文
摘要:
Gradient Descent机器学习中很多模型的参数估计都要用到优化算法,梯度下降是其中最简单也用得最多的优化算法之一。梯度下降(Gradient Descent)[3]也被称之为最快梯度(Steepest Descent),可用于寻找函数的局部最小值。梯度下降的思路为,函数值在梯度反方向下降是... 阅读全文
摘要:
Empiricial Risk Minimization统计学习理论是整个机器学习到框架。试想我们学习的目的是什么呢?当然是为了具备用合理的方式处理问题的能力。统计学习理论要解决的问题就是基于数据找到一个预测函数。经验风险最小化(Empiricial Risk Minimization,ERM)[2... 阅读全文
摘要:
A simple actions recognition system based on PCA, MHI and SVM. 阅读全文