会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Yaniesta
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
2019年1月28日
数据预处理(数据清洗)的一般方法及python实现
摘要: 数据预处理的一般方法及python实现 这是一个大数据的时代。我们在很多时候都要处理各种各样的数据。但是并非所有数据都是拿来即可使用,都是要先经过一番处理后才能进行下一步操作。在我们爬到数据或者要处理一份数据文件时,首先要对数据进行清洗和除噪。本文就总结一下,一般数据预处理过程中可能要用到的方法。
阅读全文
posted @ 2019-01-28 15:47 Yaniesta
阅读(15672)
评论(1)
推荐(1)
编辑
2018年12月4日
机器学习关于集成算法的两种基本思想
摘要: 集成算法 把训练集分为B个(可重复),即bootstrap数据集,然后分别求出其中的beta值然后进行加权平均。如果每个子集的错误都是独立的,这种方法就可以减小误差。Variance一定减小。 在决策树方面,这种方法尤为有效。缺点是解释性降低。代表算法有random forest。 每一次的迭代都要
阅读全文
posted @ 2018-12-04 11:19 Yaniesta
阅读(892)
评论(0)
推荐(0)
编辑
2018年10月13日
机器学习之神经网络及python实现
摘要: 神经网络在机器学习中有很大的应用,甚至涉及到方方面面。本文主要是简单介绍一下神经网络的基本理论概念和推算。同时也会介绍一下神经网络在数据分类方面的应用。 首先,当我们建立一个回归和分类模型的时候,无论是用最小二乘法(OLS)还是最大似然值(MLE)都用来使得残差达到最小。因此我们在建立模型的时候,都
阅读全文
posted @ 2018-10-13 14:21 Yaniesta
阅读(19459)
评论(2)
推荐(0)
编辑
2018年8月5日
金融时间序列及Matlab实现
摘要: 数据处理一共可以分为三个方面,一是数据的回归分类,而是时间序列数据,三是网络型数据处理。本文将要来讨论一下时间序列的应用。 一.ARMA 模型 Arma是用来讨论时间序列里面回报率的情况,假设t时刻的回报率与t时刻之前的回报率有关。同时,也与之前的误差有关。 这模型就是AR模型和MA模型的结合,非常
阅读全文
posted @ 2018-08-05 18:01 Yaniesta
阅读(9547)
评论(2)
推荐(0)
编辑
2018年7月29日
数据回归分类预测的基本算法及python实现
摘要: 数据回归分类预测的基本算法及python实现 关于数据的回归和分类以及分析预测。讨论分析几种比较基础的算法,也可以算作是比较简单的机器学习算法。 一. KNN算法 邻近算法,可以用来做回归分析也可以用来做分类分析。主要思想是采取K个最为邻近的自变量来求取其应变量的平均值,从而做一个回归或者是分类。一
阅读全文
posted @ 2018-07-29 20:05 Yaniesta
阅读(12053)
评论(0)
推荐(0)
编辑
公告