机器学习基础——数据处理与特征工程
摘要:一. 数据预处理 数据不平衡时,无法体现模型好坏,就像让一群硕士去做小学题,并不能区分他们的能力,宁愿把题目设置成高考题。 · 过采样和欠采样可以同时采用。 留出法的缺点:可能会导致划分在测试集内的数据有一些特征没有在训练集内发现,会有误差。 k-折交叉验证法的优点:假如划分为10个互斥子集,我们就
阅读全文
posted @
2020-04-05 20:45
CC陈三愿
阅读(401)
推荐(0) 编辑
机器学习基础——机器学习概述
摘要:一. 什么是机器学习 机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。 机器学习是一门多领域的交叉学科,设计概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 ——
阅读全文
posted @
2020-04-05 19:35
CC陈三愿
阅读(520)
推荐(0) 编辑
数据科学流程之维数约简
摘要:当数据集中包含大量特征时: - 有些特征包含丰富的预测信息; - 有些特征之间具有一定的相关性; - 有些特征只包含噪声或不相关信息; 只保留有意义的特征不仅可以使数据集易于管理,而且可以使预测结果不受数据中噪声的影响,预测精度更好。 维数约简 消除输入数据集的某些特征,创建一个有限特征的数据集(包
阅读全文
posted @
2020-04-03 15:09
CC陈三愿
阅读(796)
推荐(0) 编辑
数据科学流程之创建新特征
摘要:当特征和目标变量不是很相关时,可以修改输入的数据集,应用线性,非线性变换(或者其他相似方法)来提高系统的精度。 - 数据是“死”的,人的思维是“活”的。 - 数据科学家负责改变数据集和输入数据,使数据更好的符合分类模型。 基本方法:A. 特征的线性修正 B. 特征的非线性修正 K近邻方法(K-Nea
阅读全文
posted @
2020-03-30 22:31
CC陈三愿
阅读(541)
推荐(0) 编辑
数据科学流程之EDA简介
摘要:数据加载和数据预处理: (1)利用Pandas库进行数据加载和预处理:处理问题数据,日期格式解析,NaN值的处理,分组和聚类,排序和索引,文本数据的编码,词频统计等; (2)利用Numpy库进行数据处理:数组的创建,矩阵运算,数组切片,堆叠等。 数据分析: (1)数据的探索性分析; (2)高维数据的
阅读全文
posted @
2020-03-30 14:02
CC陈三愿
阅读(1588)
推荐(0) 编辑
Python中合并数据集——merge函数和concat函数区别
摘要:合并数据集 一.merge函数参数表格 merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=False,suffixes= ('_x','_y'
阅读全文
posted @
2020-03-24 17:50
CC陈三愿
阅读(1934)
推荐(0) 编辑
Python中元素索引函数——iloc[]和loc[]的区别
摘要:Python中元素索引函数——iloc[]和loc[]的区别 一.loc[]函数 loc[]函数用行列标签选择数据,前闭后闭。 1. 索引单个元素:通过行索引“index”中的具体值来取行数据。括号里面是先行后列,以逗号分割,行和列分别是行标签和列标签。 2. 索引区域:矩形区域的行标签,矩形区域的
阅读全文
posted @
2020-03-24 17:27
CC陈三愿
阅读(9696)
推荐(0) 编辑