上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页
摘要: 数据湖 数据湖的产生是为了存储各种各样原始数据的大型仓库。这些数据根据需求,进行存取、处理、分析等。对于存储部分来说,开源版本常见的就是 hdfs。而各大云厂商也提供了各自的存储服务,如 Amazon S3,Azure Blob 等。 而由于数据湖中存储的数据全部为原始数据,一般需要对数据做ETL( 阅读全文
posted @ 2020-04-13 00:34 ZacksTang 阅读(3970) 评论(0) 推荐(0) 编辑
摘要: LLE 局部线性嵌入,Locally Linear Embedding(LLE)是另一个功能强大的非线性降维(nonlinear dimensional reduction,NLDR)技术。它是一个流形学习技术,并不基于投影。简单地说,LLE工作的方式是:首先衡量每个训练实例与它最近的邻居们(clo 阅读全文
posted @ 2020-04-11 11:44 ZacksTang 阅读(1238) 评论(0) 推荐(0) 编辑
摘要: PCA 主成成分分析(Principal Component Analysis,PCA)在目前是非常热门的降维算法。首先它找到一个最接近数据的超平面,然后将数据投影到这个平面上。 保持方差(Preserving the Variance) 在将训练集投影到一个低维超平面之前,我们首先要选择正确的超平 阅读全文
posted @ 2020-04-08 20:57 ZacksTang 阅读(2287) 评论(0) 推荐(1) 编辑
摘要: 降维 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维度灾难。 不过值得庆幸的是,在实际问题中,经常可以极大地减少特征的数目,将棘手的问题转变为容易处理的问题。例如,以M 阅读全文
posted @ 2020-04-07 16:20 ZacksTang 阅读(2430) 评论(0) 推荐(0) 编辑
摘要: Boosting Boosting(原先称为hypothesis boosting),指的是能够将多个弱学习器结合在一起的任何集成方法。对于大部分boosting方法来说,它们常规的做法是:按顺序训练模型,每个模型都会尝试修正它的前一个模型。Booting 方法有很多种,不过到现在为止最热门的是Ad 阅读全文
posted @ 2020-03-24 20:40 ZacksTang 阅读(1497) 评论(0) 推荐(0) 编辑
摘要: 随机森林与随机子空间 BaggingClassifier类也支持对特征采样,这种采样由两个超参数控制:max_features 与 bootstrap_features,他们的工作方式与max_samples 与 bootstrap一样,只是他们采样的是特征。这样,每个模型将会在一个随机的输入特征子 阅读全文
posted @ 2020-03-20 21:13 ZacksTang 阅读(1453) 评论(0) 推荐(0) 编辑
摘要: Kaggle题目 nu-cs6220-assignment-1 题目地址如下: https://www.kaggle.com/c/nu-cs6220-assignment-1/overview 这是个二分类任务,需要预测一个人的收入,分为两类:收入大于50K,或是小于50K。 1. 查看数据结构 下 阅读全文
posted @ 2020-03-16 17:31 ZacksTang 阅读(721) 评论(0) 推荐(0) 编辑
摘要: 1. 准备工作 1.1. 安装并初始化airflow,参考以下文档: https://www.cnblogs.com/zackstang/p/11082322.html 其中还要额外安装的是: sudo pip-3.6 install -i https://pypi.tuna.tsinghua.ed 阅读全文
posted @ 2020-03-12 21:34 ZacksTang 阅读(909) 评论(0) 推荐(0) 编辑
摘要: Bagging 与Pasting 我们之前提到过,其中一个获取一组不同分类器的方法是使用完全不同的训练算法。另一个方法是为每个预测器使用同样的训练算法,但是在训练集的不同的随机子集上进行训练。在数据抽样时,如果是从数据中重复抽样(有放回),这种方法就叫bagging(bootstrap aggreg 阅读全文
posted @ 2020-03-08 20:51 ZacksTang 阅读(1351) 评论(0) 推荐(0) 编辑
摘要: 集成学习与随机森林 假设我们现在提出了一个复杂的问题,并抛给几千个随机的人,然后汇总他们的回答。在很多情况下,我们可以看到这种汇总后的答案会比一个专家的答案要更好。这个称为“群众的智慧”。同理,如果我们汇总一组的预测器(例如分类器与回归器)的预测结果,我们可以经常获取到比最优的单个预测器要更好的预测 阅读全文
posted @ 2020-03-04 19:10 ZacksTang 阅读(5058) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页