随笔分类 - 机器学习
摘要:概述 熵值法是基于信息熵(或简称熵)的一种信息管理方法。根据熵的特性,可以据此判断出一个事件的随机性以及无序程度,也可以基于熵值判断某个指标的离散程度。离散程度越大,即信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。基于该思想,熵值法只考虑数据内部的信息量大小,有效地避免
阅读全文
摘要:ARIMA模型介绍 1.ARIMA模型介绍 参数的确定(p,q,d) 2.ARIMA参数判定 截尾和拖尾问题 3.ARIMA截尾和拖尾问题 ACF和PACF 4.ARIMA自相关和偏相关 平稳性问题 5.时间序列平稳性问题 6.平稳性问题
阅读全文
摘要:核心思想 贝叶斯决策理论的核心思想,即选择具有最高概率的决策。 背景:假定p1(x,y)表示点(x,y)属于类别1的概率,p2(x,y)表示点(x,y) 属于类别2的概率,那么对于一个新数据点(x,y),可以采用下面的规则来判断它的类别: 若p1(x,y)>p2(x,y),那么类别为1; 若p1(x
阅读全文
摘要:[toc] —————————————————————————————————————————————————————— "原文:3.3. Metrics and scoring: quantifying the quality of predictions — scikit learn 0.22.
阅读全文
摘要:[toc] —————————————————————————————————————————————————————————— "sklearn原文:超参数的优化" 穷举法网格搜索(GridSearchCV) 基本语法 _______________________________________
阅读全文
摘要:[toc] ———————————————————————————————————————————————— 主要内容: "Sklearn 22.0原文:交叉验证" ———————————————————————————————————————————————————— 交叉验证流程 划分数据集 h
阅读全文
摘要:[toc] __________________________________ "笔记:缺失值估算 " _____________________________________ 单变量缺失 help(SimpleImputer): class SimpleImputer(_BaseImputer
阅读全文
摘要:[toc] ________________________________________ ____________________________________ "笔记:Preprocessing data — scikit learn 0.22.2 documentation " 标准化 h
阅读全文
摘要:[toc] 主要算法 ID3 算法 核心思路:在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。 具体方法:(1)从根结点(root node)开始,对结点计算所有可能的特征的信息增益,然后选择信息增益最大的特征作为结点的特征,并由该特征的不同取值建立子结点;(2)再对子结点递归地调用以
阅读全文
摘要:决策树基本知识概览 基于特征的数据集划分指标 指标定义 信息增益 划分数据集的大原则是将无序的数据变得更加有序。 定义1:将划分前后信息发生的变化称为信息增益,且信息增益最高的特征就是最好的(特征)选择。 定义2:符号x信息的定义:,p(x)是选择该类的概率. 定
阅读全文
摘要:基础知识梳理: 实现 import matplotlib.pyplot as plt import numpy as np import operator #已知分类的数据 x_data=np.array([[3,104], [2,100], [1,8], [101,10], [99,5], [81
阅读全文
摘要:初次接触《机器学习》,只是为了寻求一种解决问题的捷径(如建模),由此带来的一连串行为:找软件、找程序包(自己徒手码,是个奇迹),找不到,就换"阵地"。虽然在当时可以解决问题,但是频繁地使用,其中不可言喻的遗憾和失望也日益强烈。之前看于剑博士书的时候,有人说,这本书是正儿八经的胡扯,什么都可以用公式或
阅读全文