随笔 - 23  文章 - 0  评论 - 6  阅读 - 80995
03 2020 档案
数据科学流程之创建新特征
摘要:当特征和目标变量不是很相关时,可以修改输入的数据集,应用线性,非线性变换(或者其他相似方法)来提高系统的精度。 - 数据是“死”的,人的思维是“活”的。 - 数据科学家负责改变数据集和输入数据,使数据更好的符合分类模型。 基本方法:A. 特征的线性修正 B. 特征的非线性修正 K近邻方法(K-Nea 阅读全文
posted @ 2020-03-30 22:31 CC陈三愿 阅读(541) 评论(0) 推荐(0) 编辑
数据科学流程之EDA简介
摘要:数据加载和数据预处理: (1)利用Pandas库进行数据加载和预处理:处理问题数据,日期格式解析,NaN值的处理,分组和聚类,排序和索引,文本数据的编码,词频统计等; (2)利用Numpy库进行数据处理:数组的创建,矩阵运算,数组切片,堆叠等。 数据分析: (1)数据的探索性分析; (2)高维数据的 阅读全文
posted @ 2020-03-30 14:02 CC陈三愿 阅读(1588) 评论(0) 推荐(0) 编辑
Python中合并数据集——merge函数和concat函数区别
摘要:合并数据集 一.merge函数参数表格 merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=False,suffixes= ('_x','_y' 阅读全文
posted @ 2020-03-24 17:50 CC陈三愿 阅读(1934) 评论(0) 推荐(0) 编辑
Python中元素索引函数——iloc[]和loc[]的区别
摘要:Python中元素索引函数——iloc[]和loc[]的区别 一.loc[]函数 loc[]函数用行列标签选择数据,前闭后闭。 1. 索引单个元素:通过行索引“index”中的具体值来取行数据。括号里面是先行后列,以逗号分割,行和列分别是行标签和列标签。 2. 索引区域:矩形区域的行标签,矩形区域的 阅读全文
posted @ 2020-03-24 17:27 CC陈三愿 阅读(9696) 评论(0) 推荐(0) 编辑
浅谈数据库三大模式:外模式,内模式,概念模式
摘要:人们为数据库设计了一个严谨的体系结构,数据库领域公认的标准结构是三级模式结构,它包括外模式、概念模式、内模式,有效地组织、管理数据,提高了数据库的逻辑独立性和物理独立性。用户级对应外模式,概念级对应概念模式,物理级对应内模式,使不同级别的用户对数据库形成不同的视图。所谓视图,就是指观察、认识和理解数 阅读全文
posted @ 2020-03-11 14:22 CC陈三愿 阅读(6237) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示