随笔分类 -  机器学习

时间序列预测之 AUTO-ARIMA
摘要:参考链接:常用7种时间序列预测模型 用python做时间序列预测九:ARIMA模型简介 运用ARIMA进行时间序列建模的基本步骤: 1)加载数据:构建模型的第一步当然是加载数据集。 2)预处理:根据数据集定义预处理步骤。包括创建时间戳、日期/时间列转换为d类型、序列单变量化等。 3)序列平稳化:为了 阅读全文

posted @ 2021-04-06 14:41 iUpoint 阅读(13005) 评论(2) 推荐(3) 编辑

对于特征离散化,特征交叉,连续特征离散化非常经典的解释
摘要:转自: 对于特征离散化,特征交叉,连续特征离散化非常经典的解释 一.互联网广告特征工程 博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大, 阅读全文

posted @ 2021-03-30 07:58 iUpoint 阅读(279) 评论(0) 推荐(0) 编辑

multi-class、multi-label、multi-output的区别与联系
摘要:一直很纠结Multi-class, Multi-label 以及 Multi-task 各自的区别和联系,最近找到了以下的说明资料: Multiclass classification means a classification task with more than two classes; e 阅读全文

posted @ 2021-03-26 07:45 iUpoint 阅读(843) 评论(0) 推荐(0) 编辑

多标签分类
摘要:转自: 解决多标签分类问题(包括案例研究) 加载和生成多标签分类数据集 安装工具包 pip install arff pip install scikit-multilearn 加载多标签分类数据集 from skmultilearn.dataset import available_data_se 阅读全文

posted @ 2021-03-25 23:37 iUpoint 阅读(364) 评论(0) 推荐(0) 编辑

LDA模型在邮件分类上的运用
摘要:lda模型实战 # -*- coding: utf-8 -*- """ Created on Tue Dec 8 00:02:27 2020 @author: Administrator """ import numpy as np import pandas as pd import re # 数 阅读全文

posted @ 2020-12-10 11:25 iUpoint 阅读(147) 评论(0) 推荐(0) 编辑

面试
摘要:正则化:机器学习面试复习 正则化之所以能够降低过拟合的原因在于,正则化是结构风险最小化的一种策略实现。 给loss function加上正则化项,能使得新得到的优化目标函数h = f+normal,需要在f和normal中做一个权衡(trade-off),如果还像原来只优化f的情况下,那可能得到一组 阅读全文

posted @ 2019-08-09 13:44 iUpoint 阅读(164) 评论(0) 推荐(0) 编辑

朴素贝叶斯分类器
摘要:在scikit-learn中,提供了3中朴素贝叶斯分类算法:GaussianNB(高斯朴素贝叶斯)、MultinomialNB(多项式朴素贝叶斯)、BernoulliNB(伯努利朴素贝叶斯) 简单介绍: 高斯朴素贝叶斯:适用于连续型数值,比如身高在160cm以下为一类,160-170cm为一个类,则 阅读全文

posted @ 2019-08-06 17:07 iUpoint 阅读(1116) 评论(0) 推荐(0) 编辑

特征工程 - 特征筛选
摘要:特征筛选的方法主要包括:Filter(过滤法)、Wrapper(封装法)、Embedded(嵌入法) filter: 过滤法 特征选择方法一:去掉取值变化小的特征(Removing features with low variance) 方法虽然简单但是不太好用,可以把它作为特征选择的预处理,先去掉 阅读全文

posted @ 2019-08-02 16:51 iUpoint 阅读(4449) 评论(0) 推荐(0) 编辑

密度聚类 - DBSCAN算法
摘要:参考资料:python机器学习库sklearn——DBSCAN密度聚类, Python实现DBScan import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.dat 阅读全文

posted @ 2019-07-30 17:31 iUpoint 阅读(1483) 评论(0) 推荐(0) 编辑

特征工程 - 分箱
摘要:卡方分箱 卡方分箱原理 数据分析与数据挖掘之四大分布三大检验 python自带分箱函数 -- 无法实现对分类型数据的分箱,可借助卡方分箱算法实现 阅读全文

posted @ 2019-07-18 09:32 iUpoint 阅读(1350) 评论(0) 推荐(0) 编辑

Anomaly Detection
摘要:数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数数据不一致,呈现出“异常”的特点,而检测这些数据的方法被称为异常检测。 异常数据根据原始数据集的不同可以分为离群点检测和新奇检测: 离群点检测(Outlier Detection) 大多数情况我们定义的异常数 阅读全文

posted @ 2019-07-11 11:41 iUpoint 阅读(1435) 评论(0) 推荐(0) 编辑

模型融合系数
摘要:模型1预测方差为V1,模型2预测方差为V2,总能找到权重,使融合模型的预测方差小于其中任何一个模型。 设:模型1的预测值随机变量为X,模型2的预测值随机变量为Y,即证存在a使得:Var(aX + (1-a)Y) < min(V1, V2) 不妨设,V1<V2,且V2=kV1 则:Var(aX + ( 阅读全文

posted @ 2019-06-06 15:47 iUpoint 阅读(376) 评论(0) 推荐(0) 编辑

遗传算法求解旅行商(TSP)问题 -- python
摘要:参考资料: 遗传算法解决TSP旅行商问题(附:Python实现) 遗传算法详解(GA)(个人觉得很形象,很适合初学者) 阅读全文

posted @ 2019-05-30 09:45 iUpoint 阅读(5513) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示