06 2013 档案
摘要:本文详细介绍了余弦距离和杰卡德相似度、杰卡德距离的计算方法,对比分析了余弦距离和欧氏距离的差异以及适用范围。在分析杰卡德相似度的计算过程中,引入非对称二元变量的概念,解释了杰卡德相似度的计算特点及其原因。最后给出了调整余弦相似度的一种简单算法。
阅读全文
摘要:本文从一个实例(如何获取《中国的蜜蜂养殖》这篇文章的关键词)出发,详细的描述了TF-IDF算法的思路和计算过程,讲解了该算法的应用途径,最后分析了该算法的不足之处。
阅读全文
摘要:网上看到一张讲解Google工作原理的图,与大家分享一下:
阅读全文
摘要:[] 是针对特定类型、固定长度的。 List 是针对特定类型、任意长度的。 Array 是针对任意类型、固定长度的。 ArrayList 是针对任意类型、任意长度的。 Array 和 ArrayList 是通过存储 object 实现任意类型的,所以使用时要转换。 参考: http://www.cftea.com/c/2008/10/XNW6ZR0WXNGK6B9X.asp
阅读全文
摘要:随着数据收集和存储技术的发展,收集大量缺少标记的数据已相当容易,而为这些数据提供标记则相对困难,因为数据标记过程往往需要消耗大量人力物力,甚至必须依赖于少数领域专家来完成。例如在计算机辅助诊断中,可以方便地从医院日常体检中获取训练数据,但是让医学权威专家为所有的体检结果提供诊断往往是不现实的。事实上,在实际应用中,大量未标记数据和少量有标记数据并存的情况比比皆是。然而,由于能用于监督学习的有标记样本较少,通常难以学得泛化能力强的模型。因此,如何利用大量未标记数据来帮助提升在少量有标记数据上学得模型的泛化能力,成了当前机器学习领域倍受关注的重要问题之一。
阅读全文
摘要:本文将详细介绍数据结构中的一些常用的搜索树结构,包括:B树、B-树、B+树、B*树;分别介绍这些树结构的定义、特征、搜索方法、性能等情况,最后给出了一个简要的总结。
阅读全文
摘要:本文使用图例的方式详细描述了UML中几种常用的关系:泛化、实现、关联、聚合、组合、依赖,并详细对比了各种关系之间的强弱顺序,最后给出了一个完整的UML各种关系图例。
阅读全文
摘要:本文介绍了UML中各种类图的表示形式,使用JAVA代码的形式和UML图对照描述了其实现方式。
阅读全文
摘要:本文首先简要的描述了人工神经网络的基本原理,最后详细的介绍了后向传播BP神经网络的训练步骤。
阅读全文
摘要:本文详细的介绍了神经网络的模型、工作方式等基本原理,针对Iris数据集,给出了使用Matlab实现的BP神经网络算法和C# AForge框架实现的BP神经网络程序,最后对影响神经网络性能的各项参数进行了对照分析。
阅读全文
摘要:在做分类时常常需要顾及不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本之间的“距离”(Distance)。采用什么样的方法计算距离是很讲究的,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量做一个总结。
阅读全文
摘要:本文详细描述了爬山算法和模拟退火算法的步骤和应用,对比了爬山算法和模拟退火算法的在求解最优解时的不同策略。
阅读全文
摘要:本文详细的描述了Logistic函数的形式和图形,介绍了该函数在社会学和生物学上的应用和产生的过程。
阅读全文