随笔分类 -  机器学习

摘要:概述 熵值法是基于信息熵(或简称熵)的一种信息管理方法。根据熵的特性,可以据此判断出一个事件的随机性以及无序程度,也可以基于熵值判断某个指标的离散程度。离散程度越大,即信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。基于该思想,熵值法只考虑数据内部的信息量大小,有效地避免 阅读全文
posted @ 2020-08-18 14:00 LgRun 阅读(4390) 评论(0) 推荐(0) 编辑
摘要:感知机模型 感知机定义 假设输入空间(特征空间)是χRn,输出空间是γ=+1,1.输入xχ表示实例的特征向量,对应于输入空间(特征空间)的点:;输出yγ表示实例的类别。由输入空间到输出空 阅读全文
posted @ 2020-07-05 17:39 LgRun 阅读(235) 评论(0) 推荐(0) 编辑
摘要:ARIMA模型介绍 1.ARIMA模型介绍 参数的确定(p,q,d) 2.ARIMA参数判定 截尾和拖尾问题 3.ARIMA截尾和拖尾问题 ACF和PACF 4.ARIMA自相关和偏相关 平稳性问题 5.时间序列平稳性问题 6.平稳性问题 阅读全文
posted @ 2020-07-03 18:10 LgRun 阅读(148) 评论(0) 推荐(0) 编辑
摘要:核心思想 贝叶斯决策理论的核心思想,即选择具有最高概率的决策。 背景:假定p1(x,y)表示点(x,y)属于类别1的概率,p2(x,y)表示点(x,y) 属于类别2的概率,那么对于一个新数据点(x,y),可以采用下面的规则来判断它的类别: 若p1(x,y)>p2(x,y),那么类别为1; 若p1(x 阅读全文
posted @ 2020-05-11 20:52 LgRun 阅读(1014) 评论(0) 推荐(0) 编辑
摘要:[toc] —————————————————————————————————————————————————————— "原文:3.3. Metrics and scoring: quantifying the quality of predictions — scikit learn 0.22. 阅读全文
posted @ 2020-04-28 18:12 LgRun 阅读(199) 评论(0) 推荐(0) 编辑
摘要:[toc] —————————————————————————————————————————————————————————— "sklearn原文:超参数的优化" 穷举法网格搜索(GridSearchCV) 基本语法 _______________________________________ 阅读全文
posted @ 2020-04-27 18:48 LgRun 阅读(882) 评论(0) 推荐(0) 编辑
摘要:[toc] ———————————————————————————————————————————————— 主要内容: "Sklearn 22.0原文:交叉验证" ———————————————————————————————————————————————————— 交叉验证流程 划分数据集 h 阅读全文
posted @ 2020-04-26 18:32 LgRun 阅读(1244) 评论(0) 推荐(0) 编辑
摘要:[toc] __________________________________ "笔记:缺失值估算 " _____________________________________ 单变量缺失 help(SimpleImputer): class SimpleImputer(_BaseImputer 阅读全文
posted @ 2020-04-25 18:40 LgRun 阅读(1156) 评论(0) 推荐(0) 编辑
摘要:[toc] ________________________________________ ____________________________________ "笔记:Preprocessing data — scikit learn 0.22.2 documentation " 标准化 h 阅读全文
posted @ 2020-04-25 17:21 LgRun 阅读(490) 评论(0) 推荐(0) 编辑
摘要:[toc] 主要算法 ID3 算法 核心思路:在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。 具体方法:(1)从根结点(root node)开始,对结点计算所有可能的特征的信息增益,然后选择信息增益最大的特征作为结点的特征,并由该特征的不同取值建立子结点;(2)再对子结点递归地调用以 阅读全文
posted @ 2020-04-24 11:16 LgRun 阅读(2366) 评论(0) 推荐(0) 编辑
摘要:决策树基本知识概览 基于特征的数据集划分指标 指标定义 信息增益 划分数据集的大原则是将无序的数据变得更加有序。 定义1:将划分前后信息发生的变化称为信息增益,且信息增益最高的特征就是最好的(特征)选择。 定义2:符号x信息的定义:l(x)=log2p(x),p(x)是选择该类的概率. 定 阅读全文
posted @ 2020-04-23 21:21 LgRun 阅读(376) 评论(0) 推荐(0) 编辑
摘要:基础知识梳理: 实现 import matplotlib.pyplot as plt import numpy as np import operator #已知分类的数据 x_data=np.array([[3,104], [2,100], [1,8], [101,10], [99,5], [81 阅读全文
posted @ 2020-04-21 21:39 LgRun 阅读(220) 评论(0) 推荐(0) 编辑
摘要:初次接触《机器学习》,只是为了寻求一种解决问题的捷径(如建模),由此带来的一连串行为:找软件、找程序包(自己徒手码,是个奇迹),找不到,就换"阵地"。虽然在当时可以解决问题,但是频繁地使用,其中不可言喻的遗憾和失望也日益强烈。之前看于剑博士书的时候,有人说,这本书是正儿八经的胡扯,什么都可以用公式或 阅读全文
posted @ 2020-04-03 17:46 LgRun 阅读(315) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示