摘要: 参考:《Python数据分析和运营化处理》 数据标准化是一种数据预处理操作,通过处理不同规模和量纲的数据,使其缩放到相同的数据区间,例如[0, 1],或[ 1, 1],减少了因为数据规模和分布差异的不同造成对模型的影响。避免“大数吃小数”现象。 |标准化方法|数学公式|优点|缺点|区间| |: :| 阅读全文
posted @ 2018-10-23 21:56 hugechuanqi 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 官方文档:www.numpy.org.cn Numpy 数组及其索引 先导入numpy: 产生数组 从列表产生数组: array([0, 1, 2, 3]) 或者直接将列表传入: array([1, 2, 3, 4]) 数组属性 查看类型: numpy.ndarray 查看数组中的数据类型: dty 阅读全文
posted @ 2018-10-23 21:54 hugechuanqi 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 官网文档:https://www.numpy.org.cn/ Numpy 简介 导入numpy Numpy 是 Python 的一个很重要的第三方库,很多其他科学计算的第三方库都是以 Numpy 为基础建立的。 Numpy 的一个重要特性是它的数组计算。 在使用 Numpy 之前,我们需要导入 包: 阅读全文
posted @ 2018-10-23 21:53 hugechuanqi 阅读(229) 评论(0) 推荐(0) 编辑
摘要: [TOC] 一、输入和输出 1.1 NumPy二进制文件(NPY,NPZ) load(file[, mmap_mode, allow_pickle, ...]) 从.npy, .npz或pickle文件加载数组或pickle对象。 save(file, arr[, allow_pickle, fix 阅读全文
posted @ 2018-10-23 21:51 hugechuanqi 阅读(1013) 评论(0) 推荐(0) 编辑
摘要: 参考:http://pandas.pydata.org/pandas docs/stable/whatsnew.html https://www.cnblogs.com/chaosimple/p/4153083.html [TOC] 十分钟搞定pandas 一、创建对象 1、可以通过传递一个list 阅读全文
posted @ 2018-10-23 21:50 hugechuanqi 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 参考:《数据挖掘导论》,《Introduction to Data Mining》 [TOC] 数据预处理的内容包括: (1)聚类 (2)抽样 (3)维归约 (4)特征子集选择 (5)特征创建 (6)离散化和二元化 (7)变量变换 每个项目分为两种方式: 1. 选择分析所需要的数据对象和属性; 2. 阅读全文
posted @ 2018-10-23 21:46 hugechuanqi 阅读(642) 评论(0) 推荐(0) 编辑
摘要: 参考: "Linux公社Ubuntu系统环境变量详解" "UNIX/Linux系统中的环境变量和库文件的使用方法" 由于Linux系统严格的权限管理,造成Ubuntu系统有多个环境变量配置文件,因此我们需要了解每一个环境变量的作用。 一、Ubuntu Linux系统环境变量配置文件 Ubuntu系统 阅读全文
posted @ 2018-10-23 21:44 hugechuanqi 阅读(1187) 评论(0) 推荐(0) 编辑
摘要: 参考:https://www.jianshu.com/p/95f075761dc0 由于安装文件免安装程序,故只需要将对应文件复制到相应目录,然后配置环境变量即可; 1、移动文件到指定目录 (1)在/usr/local下新建一个java目录 (2)进入到免安装程序目录下,本系统是放在~/Downlo 阅读全文
posted @ 2018-10-23 21:42 hugechuanqi 阅读(2909) 评论(0) 推荐(0) 编辑