摘要:
一、无限迭代器 1、itertools.count(start=0, step=1) 创建一个迭代器,返回一个以start开头,以step间隔的值。其大体如下: def count(start=0, step=1): # count(10) --> 10 11 12 13 14 ... # coun 阅读全文
摘要:
一、k-近邻算法概述 1、什么是k-近邻算法 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 2、欧式距离 两个样本的距离可以通过如下公式计算,又叫欧式距离。比方说计算a(a1,a2,a3),b(b1,b2,b3)样本之间的距离: 阅读全文
摘要:
一、转换器 在之前我们对数据做标准化或者其它的特征工程处理时使用了fit_transform方法,它是输入数据并且对数据进行转换;与之对应的就是fit方法与transform方法,实际上这两个方法相当于一个fit_transform方法。 In [1]: from sklearn.preproces 阅读全文
摘要:
一、sklearn数据集概述 (一)数据集划分 机器学习一般的数据集会划分为两个部分: 训练数据 测试数据 1、训练数据 用于训练,构建模型,一般可设定占整个数据集的75% 2、测试数据 在模型检验时使用,用于评估模型是否有效,一般可设定占整个数据集的25% (二)sklearn数据集接口介绍 sk 阅读全文
摘要:
一、算法分类 (一)数据分类 不同的算法是针对不同的数据类型的,所以在了解算法之前,可以先了解以下数据的类型: 离散型数据 连续性数据 1、离散型数据 由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再进行细分以及提高它们的精确度。 2、连续型数据 变量在某一范 阅读全文
摘要:
一、问题描述 在pycharm中读取文件出现下面的错误: 错误写法: pd.read_csv('I:\machine_learn\example_\products.csv') """ FileNotFoundError: [Errno 2] File b'products.csv' does no 阅读全文
摘要:
一、数据集介绍 该案例描述的是一段时间内客户的订单,预测用户下一次将会买那些订单。 数据集的信息如下: products.csv 商品信息 order_products__prior.csv 订单与商品关系信息 orders.csv 订单信息 aisles.csv 商品所属的具体类别 1、 prod 阅读全文
摘要:
一、问题描述 在windows下创建以“.”为开头的文件夹和文件,会出现下面问题: 二、问题解决 1、创建文件夹 比如创建.kaggle文件夹,这样显然是会失败的,所以你可以先随便创建一个文件夹,比如kaggle文件夹: 2、重命名 通过cmd命令行下,进入该目录下,然后对该文件夹进行重命名: C: 阅读全文
摘要:
一、特征选择 (一)概述 1、什么是特征选择 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。 2、为什么进行特征选择 那么,我们为什么要进行数据进行特征选择呢?其一就 阅读全文
摘要:
一、什么是特征预处理 我们在进行特征抽取后,需要根据算法的要求,使用特定的统计方法(数学方法)将数据转换成其所需格式。对于不同的数据类型有不同的转换方法。 1、数值类型数据 对于数值类型数据可采用标准的缩放,其方法有: 归一化 标准化 缺失值处理 2、类别型数据 采用one-hot编码,像字典、文本 阅读全文