摘要: 1、概述¶ Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql、oracle...)间进行数据的传递。其原理是导入和导出动作翻译成mapreduce程序来实现,在翻译出的mapreduce中主要是对inputformat和outputfor 阅读全文
posted @ 2021-01-12 16:48 雨中漫步人生 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 1、Spark SQL简介¶ 说SparkSql之前,就不得不说下它的前身-Shark。首先,Hive是一个基于Hadoop的数据仓库工具,用户可以通过HiveQL语句将其转化为MapReduce任务来运行。其主要过程是用户输入HiveQL语句,进入到驱动模块后编译器会进行解析辨析,并有优化器对该操 阅读全文
posted @ 2020-04-16 18:07 雨中漫步人生 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 1、YARN的基本概述¶ Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器,它是一个通用资源管理系统和调度平台, 可为上层应用提供统一的资源管理和调度。它的出现解决了旧版本MapReduce的很多 阅读全文
posted @ 2020-04-13 15:54 雨中漫步人生 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 1、Spark基本特性¶ 1.高效性。Spark是基于内存的计算框架,数据处理过程中是将中间数据集放到内存中,运行速度提高100倍。 2.通用性。Spark提供了统一的解决方案。Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib 阅读全文
posted @ 2020-04-12 22:08 雨中漫步人生 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 1、Adaboost算法概述¶ 集成学习按照个体学习器之间是否存在依赖关系进行划分,主要代表算法是bagging系列算法和boosting系列算法,今天主要讲述的是boosting系列代表算法之Adaboost。Adaboost算法不需要预先知道弱学习算法学习正确率的下限,并且最后得到的强分类器的分 阅读全文
posted @ 2020-02-29 21:56 雨中漫步人生 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 1、数据预处理概述¶ 数据预处理是构建特征工程的基本环境,并且是提高算法精确度的有效手段。数据预处理需要根据数据本身的特性进行,不同的格式有不同的处理要求,比如无效的要剔除,缺失值要回填和冗余维度的选择等。大致主要分为三个步骤:数据的准备、转换和输出。本文主要利用sklearn讲解转换数据的常用方法 阅读全文
posted @ 2020-02-17 14:50 雨中漫步人生 阅读(815) 评论(0) 推荐(0) 编辑
摘要: 随机森林的主要作用是降低模型的复杂度,解决模型的过拟合问题。 1、随机森林概述¶ 随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。 2、随机森林算法流程¶ 随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森 阅读全文
posted @ 2020-02-10 12:19 雨中漫步人生 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 集成算法目标:集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现。 1、集成学习概述¶ 集成学习(Ensemble learning)通过构建并结合多个学习器来完成学习任务。一般结构为:先产生一组“个体学习器”,再用某种策略将它们结合起来。但要获 阅读全文
posted @ 2020-02-07 11:10 雨中漫步人生 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 1、逻辑回归概述¶ 逻辑回归假设数据服从伯努利分布,通过极大化似然函数方法,运用梯度下降来求解参数,来达到将数据二分目的。本质上就是LR模型可以被认为就是一个被Sigmoid函数(logistic方程)所归一化后的线性回归模型 。 Logistic Regression方程如下: $$P(y=1|x 阅读全文
posted @ 2020-01-12 22:00 雨中漫步人生 阅读(1033) 评论(0) 推荐(0) 编辑
摘要: 1、决策树概述¶ 决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合(互斥并且完备),也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学 阅读全文
posted @ 2020-01-06 14:54 雨中漫步人生 阅读(4871) 评论(0) 推荐(0) 编辑