摘要: 说明:目前 只记录了 过采样 和 欠采样 的代码部分 1 样本分布不均衡描述: 主要出现在与分类相关的建模问题上,不均衡指的是不同类别的样本量差异非常大。 样本量差距过大会影响到建模结果 2 出现的场景: 异常检测:如恶意刷单、黄牛,这些数据样本所占的比例通常是整体样本中很少的一部分 客户流失:大型 阅读全文
posted @ 2020-02-28 12:10 机器快点学习 阅读(4936) 评论(1) 推荐(0) 编辑
摘要: 数据中包含日期、时间类型的数据可以通过 pandas 的 to_datetime 转换成 datetime 类型,方便提取各种时间信息 1 将 object 类型数据转成 datetime64 1> 导入数据 import pandas as pd car_sales = pd.read_csv(' 阅读全文
posted @ 2020-02-28 10:34 机器快点学习 阅读(6557) 评论(0) 推荐(0) 编辑
摘要: 【分类数据的处理】 问题: 在数据建模过程中,很多算法或算法实现包无法直接处理非数值型的变量,如 KMeans 算法基于距离的相似度计算,而字符串则无法直接计算距离 如: 性别中的男和女 [0,1] [1,0] 用户的价值度分为高、中、低 处理方法: 将字符串表示的 分类特征 转换成 数值 类型(哑 阅读全文
posted @ 2020-02-28 09:20 机器快点学习 阅读(867) 评论(0) 推荐(0) 编辑
摘要: 1 标准化 & 归一化 导包和数据 import numpy as np from sklearn import preprocessing data = np.loadtxt('data.txt', delimiter='\t') 1.1 标准化 (Z-Score) x'=(x-mean)/std 阅读全文
posted @ 2020-02-27 18:54 机器快点学习 阅读(9173) 评论(0) 推荐(2) 编辑
摘要: 判断异常值方法:Z-Score 计算公式 Z = (X-μ)/σ 其中μ为总体平均值,X-μ为离均差,σ表示标准差。z的绝对值表示在标准差范围内的原始分数与总体均值之间的距离。当原始分数低于平均值时,z为负,以上为正。 代码演示 1 生成一个 df 1 import pandas as pd # 导 阅读全文
posted @ 2020-02-27 12:16 机器快点学习 阅读(8341) 评论(1) 推荐(0) 编辑
摘要: 1 简介 scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。 SKlearn官网:http://scikit-lear 阅读全文
posted @ 2020-02-27 11:53 机器快点学习 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 出现的问题:如图,总消费金额本应该为float类型,此处却显示object 需求:将 TotalCharges 的类型转换成float 使用 pandas.to_numeric(arg, errors='raise', downcast=None) 方法,可将参数转换为数字类型。 (别的类型转换,遇 阅读全文
posted @ 2020-02-26 15:31 机器快点学习 阅读(1550) 评论(0) 推荐(0) 编辑
摘要: 搞不懂博客园表格的排版。。。 说明: 0 ndarray :多维数组对象 1 np :import numpy as np 2 nda :表示数组的名称 1 生成数组 函数名 描述 np.array 将输入的数据转换为ndarray,默认复制所有的输入数据(深拷贝) np.asarray 将输入转换 阅读全文
posted @ 2020-02-25 16:35 机器快点学习 阅读(2187) 评论(0) 推荐(0) 编辑
摘要: 一、Jupyter Notebook的安装与启动 安装Jupyter Notebook pip3 install jupyter 启动 jupyter notebook 输入命令后会自动弹出浏览器窗口打开Jupyter Notebook 本地notebook的默认URL为:http://localh 阅读全文
posted @ 2019-12-19 11:36 机器快点学习 阅读(2575) 评论(0) 推荐(0) 编辑
摘要: 每次环境配置都费老劲,零零碎碎的知识就记在这里 文件:~/.bash_profile 阅读全文
posted @ 2019-12-04 16:30 机器快点学习 阅读(400) 评论(0) 推荐(0) 编辑