博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

2020年5月16日

数据处理以及建模完整流程

摘要: 在数据挖掘工作中,数据预处理对于结果的影响是非常重要的,所以在这方面需要多花时间探索。 这里,我介绍一些数据预处理的流程以及方法: 首先,拿到数据之后,我们先把数据读进来: ### code ### import numpy as np import pandas as pd import pand 阅读全文

posted @ 2020-05-16 11:09 enhaofrank 阅读(1148) 评论(0) 推荐(0) 编辑

分类模型之朴素贝叶斯

摘要: 朴素贝叶斯是基于概率论的一种分类方法,他的核心思想是选择高概率对应的类别。 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据 参考资料 1、机器学习实战 阅读全文

posted @ 2020-05-16 11:07 enhaofrank 阅读(327) 评论(0) 推荐(0) 编辑

分层采样

摘要: 训练和测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程中引入额外的偏差而对最终结果产生影响,例如在分类任务重至少要保持样本的类别比例相似,如果从采样的角度来看待数据集的划分过程,则保留类别比例的采样方式通常称为“分层采样”。就是训练和测试的数据集中,正负样本比例一致,即训练集中正负比例为 阅读全文

posted @ 2020-05-16 11:06 enhaofrank 阅读(758) 评论(0) 推荐(0) 编辑

分类模型之逻辑回归

摘要: 逻辑回归是分类模型中经常使用的,在介绍逻辑回归之前,我们先来介绍下回归,假设现在我们手上有一些数据,我们用一条直线或者曲线对这些点进行拟合,这个拟合的过程就叫做回归。那么逻辑回归分类算法呢,也是根据数据对分类边界线建立回归公式,以此进行分类。 优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分 阅读全文

posted @ 2020-05-16 10:51 enhaofrank 阅读(358) 评论(0) 推荐(0) 编辑

聚类算法之k-均值聚类

摘要: k-均值聚类算法 Kmeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类 阅读全文

posted @ 2020-05-16 10:49 enhaofrank 阅读(1132) 评论(0) 推荐(0) 编辑

聚类算法总览

摘要: 聚类分析就是在没有给定类别标签的情况下,根据数据相似性来进行分组的方法,是一种无监督的算法。聚类根据数据自身的距离或相似度将其划分为若干组,划分的原则是组内距离最小化而组间距离最大化。 常用聚类方法 类别 包括的主要算法 划分方法 k-means(k-平均)、k-medoids(k-中心点)、Cla 阅读全文

posted @ 2020-05-16 10:47 enhaofrank 阅读(382) 评论(0) 推荐(0) 编辑

分类模型之支持向量机

摘要: 支持向量机,构建分类器,使得数据远离决策边界。找到距离分割超平面最近的点,确保他们离分割面的距离尽可能远。这些点成为支持向量。 优点:泛化错误率低,计算开销不大,结果易解释。 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。 适用数据类型:数值型和标称型数据。 参考资料 阅读全文

posted @ 2020-05-16 10:46 enhaofrank 阅读(386) 评论(0) 推荐(0) 编辑

2020年5月3日

数据预处理

摘要: 数据预处理的主要内容包括数据清洗、数据集成、数据变换、数据规约。 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值和异常值。 数据质量分析是检查数据中是否存在一些脏数据,例如:缺失值、异常值和不一致的值等。 数据缺失有很多原因,例如数据无法获得 阅读全文

posted @ 2020-05-03 16:04 enhaofrank 阅读(1084) 评论(0) 推荐(0) 编辑

2020年4月5日

数据挖掘基本流程

摘要: 对于刚入门的数据挖掘小伙伴们,先要建立一个数据挖掘的流程概念。 首先,我们拿到相应的数据,这个数据有的是通过数据库,利用hive或者SQL获取你用于分析的数据;或者直接通过一些上游分析得到的数据(例如通过生物信息分析流程得到的初步结果)。 拿到数据之后,需要先对数据进行一个初步探索,需要去了解数据的 阅读全文

posted @ 2020-04-05 15:21 enhaofrank 阅读(4848) 评论(0) 推荐(0) 编辑

导航