ZacksTang

2020年4月21日

摘要： Kylin 上手根据Kylin 官方给出的测试数据，我们实际操作一下 Kylin。 1. 导入 Hive 数据首先创建一个project，在界面左上角有个“Add Project” 按钮，这里我们创建的Project名为tuto。进入Model 界面，从 Hive 中导入两张表：kylin_s 阅读全文

posted @ 2020-04-21 21:48 ZacksTang 阅读(1450) 评论(0) 推荐(0) 编辑

Apache Kylin（二）在EMR上搭建Kylin

摘要： EMR上搭建kylin 1. 启动EMR集群根据官网说明： http://kylin.apache.org/docs21/install/kylin_aws_emr.html 启动EMR时，若是 hbase 数据存储在 s3 ，则需指定以下配置： [ { "Classification": "hb 阅读全文

posted @ 2020-04-21 21:39 ZacksTang 阅读(643) 评论(0) 推荐(0) 编辑

2020年4月18日

Apache Kylin（一）Kylin介绍

摘要： 1. 传统大数据分析的问题在基于Hadoop 生态的传统大数据分析中，主要使用的技术是MPP（Massively Parallel Processing）大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降，列式存储可以提高读取数据的速率。两者结合可以使得基于 Hadoop 阅读全文

posted @ 2020-04-18 22:31 ZacksTang 阅读(819) 评论(0) 推荐(0) 编辑

2020年4月13日

使用AWS Glue进行 ETL 工作

摘要：数据湖数据湖的产生是为了存储各种各样原始数据的大型仓库。这些数据根据需求，进行存取、处理、分析等。对于存储部分来说，开源版本常见的就是 hdfs。而各大云厂商也提供了各自的存储服务，如 Amazon S3，Azure Blob 等。而由于数据湖中存储的数据全部为原始数据，一般需要对数据做ETL（阅读全文

posted @ 2020-04-13 00:34 ZacksTang 阅读(4008) 评论(0) 推荐(0) 编辑

2020年4月11日

降维（三）LLE与其他降维技术

摘要： LLE 局部线性嵌入，Locally Linear Embedding（LLE）是另一个功能强大的非线性降维（nonlinear dimensional reduction，NLDR）技术。它是一个流形学习技术，并不基于投影。简单地说，LLE工作的方式是：首先衡量每个训练实例与它最近的邻居们（clo 阅读全文

posted @ 2020-04-11 11:44 ZacksTang 阅读(1264) 评论(0) 推荐(0) 编辑

2020年4月8日

降维（二）PCA

摘要： PCA 主成成分分析（Principal Component Analysis，PCA）在目前是非常热门的降维算法。首先它找到一个最接近数据的超平面，然后将数据投影到这个平面上。保持方差（Preserving the Variance）在将训练集投影到一个低维超平面之前，我们首先要选择正确的超平阅读全文

posted @ 2020-04-08 20:57 ZacksTang 阅读(2456) 评论(0) 推荐(1) 编辑

2020年4月7日

降维（一）维度灾难与降维主要方法

摘要：降维在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维度灾难。不过值得庆幸的是，在实际问题中，经常可以极大地减少特征的数目，将棘手的问题转变为容易处理的问题。例如，以M 阅读全文

posted @ 2020-04-07 16:20 ZacksTang 阅读(2500) 评论(0) 推荐(0) 编辑

2020年3月24日

集成学习与随机森林（四）Boosting与Stacking

摘要： Boosting Boosting（原先称为hypothesis boosting），指的是能够将多个弱学习器结合在一起的任何集成方法。对于大部分boosting方法来说，它们常规的做法是：按顺序训练模型，每个模型都会尝试修正它的前一个模型。Booting 方法有很多种，不过到现在为止最热门的是Ad 阅读全文

posted @ 2020-03-24 20:40 ZacksTang 阅读(1541) 评论(0) 推荐(0) 编辑

2020年3月20日

集成学习与随机森林（三）随机森林与随机子空间

摘要：随机森林与随机子空间 BaggingClassifier类也支持对特征采样，这种采样由两个超参数控制：max_features 与 bootstrap_features，他们的工作方式与max_samples 与 bootstrap一样，只是他们采样的是特征。这样，每个模型将会在一个随机的输入特征子阅读全文

posted @ 2020-03-20 21:13 ZacksTang 阅读(1492) 评论(0) 推荐(0) 编辑

2020年3月16日

Kaggle 题目 nu-cs6220-assignment-1

摘要： Kaggle题目 nu-cs6220-assignment-1 题目地址如下： https://www.kaggle.com/c/nu-cs6220-assignment-1/overview 这是个二分类任务，需要预测一个人的收入，分为两类：收入大于50K，或是小于50K。 1. 查看数据结构下阅读全文

posted @ 2020-03-16 17:31 ZacksTang 阅读(739) 评论(0) 推荐(0) 编辑

公告