hgz_dm

2019年5月18日

摘要：这篇文章中主要记录如何分析样本间相似性的内容，相似性分析在分类算法（如K最邻近分类）和聚类任务中会涉及到。相似性分析基于样本属性取值，因此对于样本属性类型及其取值的特征也有必要说明。 1.数据测量及属性分类测量某个对象得到数据的过程实质上是描述该对象的属性（特征）、并将该属性映射到某个值上，在这些阅读全文

posted @ 2019-05-18 16:13 hgz_dm 阅读(1132) 评论(0) 推荐(0) 编辑

P类问题、NP类问题与NPC类问题

摘要：（转载自作者 “Matrix67原创” 的文章，链接为：http://www.matrix67.com/blog/archives/105）你会经常看到网上出现“这怎么做，这不是NP问题吗”、“这个只有搜了，这已经被证明是NP问题了”之类的话。你要知道，大多数人此时所说的NP问题其实都是指的NPC 阅读全文

posted @ 2019-05-18 16:11 hgz_dm 阅读(1864) 评论(0) 推荐(0) 编辑

统计学中抽样调查和一些常用的方法

摘要：（文章转载自https://www.cnblogs.com/yangsy0915/p/5162449.html）抽样调查的领域涉及如何用有效的方式得到样本。这些调查都利用了问卷，而问卷的设计则很有学问。它设计如何用词、问题的次序和问题的选择与组合等等。涉及包括心理学、社会学等知识。问题的语言应该和阅读全文

posted @ 2019-05-18 16:08 hgz_dm 阅读(1255) 评论(0) 推荐(0) 编辑

基于规则的分类技术

摘要：基于规则的分类是一种比较简单的分类技术，下面从以下几个方面对其进行介绍 1.任务所有的分类技术的任务都是利用数据集训练出分类器，然后为每条记录贴上标签，对其进行分类，基于规则的分类任务也是如此。 2.结构基于规则的分类使用了一组的规则来对记录进行分类，其将这些规则组合起来，形成了如下所示结构阅读全文

posted @ 2019-05-18 15:41 hgz_dm 阅读(1025) 评论(0) 推荐(0) 编辑

经典假设检验理论记录一二

摘要：大数据环境下的假设检验问题比较复杂，目前还未详细深入了解，但其思想还是源于经典假设检验理论，故在此先对经典假设检验理论记录一二。 1.假设检验方法的作用实际问题中很多时候需要通过样本去作推断，由于样本带有随机性，基于我们对总体的认知，有时并不确定该推断是否可信（或者说可靠），或者说偏差的程度如何，阅读全文

posted @ 2019-05-18 15:38 hgz_dm 阅读(407) 评论(0) 推荐(0) 编辑

分类模型的评价及比较

摘要：当我们得到数据模型后，该如何评价模型的优劣呢？之前看到过这样一句话：“尽管这些模型都是错误的，但是有的模型是有用的”，想想这句话也是挺有道理的！评价和比较分类模型时，关注的是其泛化能力，因此不能仅关注模型在某个验证集上的表现。事实上，如果有足够多的样本作为验证集来测试模型的表现是再好不过的，但即使阅读全文

posted @ 2019-05-18 15:32 hgz_dm 阅读(1579) 评论(0) 推荐(1) 编辑

决策树——常用算法说明

摘要：决策树模型很早就出现了，当我们使用一连串的 “if...else...” 语句时，就已经具备了决策树的思想了，不过当真正去构建决策树时，就要考虑哪个先 if、哪个后 if，采用什么样的标准来支持我们选定先 if的属性等，这部分内容在《分类：决策树——树的生长》中已经说明了。早期的决策树算法（如ID3 阅读全文

posted @ 2019-05-18 15:19 hgz_dm 阅读(531) 评论(0) 推荐(0) 编辑

2019年1月19日

决策树——剪枝

摘要：本篇是决策树系列的第二篇，介绍一下决策树的剪枝过程。过拟合是决策树构建过程中常见的问题，信息失衡、噪声等问题都会导致过拟合，剪枝则是提高决策树模型泛化能力的重要手段，下面对常用的剪枝方法作一些介绍。 1. 预剪枝决策树系列第一篇《分类：决策树——树的生长》中提到过，树的生长是一种“完全”式的生长，阅读全文

posted @ 2019-01-19 19:07 hgz_dm 阅读(1140) 评论(0) 推荐(0) 编辑

决策树——树的生长

摘要：分类算法非常适合预测或描述标签为二元或标称类型的数据集，对于标签为序数类型的数据集，分类技术则不太有效，因为分类技术不考虑隐藏在序数中的“序”关系，对于标签其他形式的联系如子类与超类（包含的关系），分类技术也不太适合。本文是分类模型系列的初篇，先介绍最基本的分类/回归模型——决策树模型。决策树分类阅读全文

posted @ 2019-01-19 19:06 hgz_dm 阅读(680) 评论(0) 推荐(0) 编辑

统计学中的频率学派与贝叶斯学派

摘要：对于技术应用人员来说，我们更看重方法的应用，但有时候对知识的背景做一些了解，我觉得还是挺有必要的，能帮助我们理解一些东西。这篇博文里，不会呈现任何计算公式，只是讨论一下贝叶斯学派与频率学派之间的问题。贝叶斯学派与频率学派是当今数理统计学的两大学派，基于各自的理论，在诸多领域中都起到了重要作用。自2 阅读全文

posted @ 2019-01-19 19:04 hgz_dm 阅读(2193) 评论(0) 推荐(0) 编辑

公告