摘要:
这篇文章中主要记录如何分析样本间相似性的内容,相似性分析在分类算法(如K最邻近分类)和聚类任务中会涉及到。相似性分析基于样本属性取值,因此对于样本属性类型及其取值的特征也有必要说明。 1.数据测量及属性分类 测量某个对象得到数据的过程实质上是描述该对象的属性(特征)、并将该属性映射到某个值上,在这些 阅读全文
摘要:
(转载自作者 “Matrix67原创” 的文章,链接为:http://www.matrix67.com/blog/archives/105) 你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC 阅读全文
摘要:
(文章转载自https://www.cnblogs.com/yangsy0915/p/5162449.html) 抽样调查的领域涉及如何用有效的方式得到样本。这些调查都利用了问卷,而问卷的设计则很有学问。它设计如何用词、问题的次序和问题的选择与组合等等。涉及包括心理学、社会学等知识。问题的语言应该和 阅读全文
摘要:
基于规则的分类是一种比较简单的分类技术,下面从以下几个方面对其进行介绍 1.任务 所有的分类技术的任务都是利用数据集训练出分类器,然后为每条记录贴上标签,对其进行分类,基于规则的分类任务也是如此。 2.结构 基于规则的分类使用了一组的规则来对记录进行分类,其将这些规则组合起来,形成了如下所示结构 阅读全文
摘要:
大数据环境下的假设检验问题比较复杂,目前还未详细深入了解,但其思想还是源于经典假设检验理论,故在此先对经典假设检验理论记录一二。 1.假设检验方法的作用 实际问题中很多时候需要通过样本去作推断,由于样本带有随机性,基于我们对总体的认知,有时并不确定该推断是否可信(或者说可靠),或者说偏差的程度如何, 阅读全文
摘要:
当我们得到数据模型后,该如何评价模型的优劣呢?之前看到过这样一句话 :“尽管这些模型都是错误的,但是有的模型是有用的”,想想这句话也是挺有道理的!评价和比较分类模型时,关注的是其泛化能力,因此不能仅关注模型在某个验证集上的表现。事实上,如果有足够多的样本作为验证集来测试模型的表现是再好不过的,但即使 阅读全文
摘要:
决策树模型很早就出现了,当我们使用一连串的 “if...else...” 语句时,就已经具备了决策树的思想了,不过当真正去构建决策树时,就要考虑哪个先 if、哪个后 if,采用什么样的标准来支持我们选定先 if的属性等,这部分内容在《分类:决策树——树的生长》中已经说明了。早期的决策树算法(如ID3 阅读全文