雨中漫步人生

2021年1月12日

摘要： 1、概述¶ Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql、oracle...)间进行数据的传递。其原理是导入和导出动作翻译成mapreduce程序来实现，在翻译出的mapreduce中主要是对inputformat和outputfor 阅读全文

posted @ 2021-01-12 16:48 雨中漫步人生阅读(709) 评论(0) 推荐(0)

2020年4月16日

大数据之Spark SQL

摘要： 1、Spark SQL简介¶ 说SparkSql之前，就不得不说下它的前身-Shark。首先，Hive是一个基于Hadoop的数据仓库工具，用户可以通过HiveQL语句将其转化为MapReduce任务来运行。其主要过程是用户输入HiveQL语句，进入到驱动模块后编译器会进行解析辨析，并有优化器对该操阅读全文

posted @ 2020-04-16 18:07 雨中漫步人生阅读(513) 评论(0) 推荐(0)

2020年4月13日

YARN的运行原理

摘要： 1、YARN的基本概述¶ Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的Hadoop资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。它的出现解决了旧版本MapReduce的很多阅读全文

posted @ 2020-04-13 15:54 雨中漫步人生阅读(482) 评论(0) 推荐(0)

2020年4月12日

Spark之基本原理

摘要： 1、Spark基本特性¶ 1.高效性。Spark是基于内存的计算框架，数据处理过程中是将中间数据集放到内存中，运行速度提高100倍。 2.通用性。Spark提供了统一的解决方案。Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib 阅读全文

posted @ 2020-04-12 22:08 雨中漫步人生阅读(506) 评论(0) 推荐(0)

2020年2月29日

集成学习之Adaboost算法

摘要： 1、Adaboost算法概述¶ 集成学习按照个体学习器之间是否存在依赖关系进行划分，主要代表算法是bagging系列算法和boosting系列算法，今天主要讲述的是boosting系列代表算法之Adaboost。Adaboost算法不需要预先知道弱学习算法学习正确率的下限，并且最后得到的强分类器的分阅读全文

posted @ 2020-02-29 21:56 雨中漫步人生阅读(439) 评论(0) 推荐(0)

2020年2月17日

sklearn数据预处理

摘要： 1、数据预处理概述¶ 数据预处理是构建特征工程的基本环境，并且是提高算法精确度的有效手段。数据预处理需要根据数据本身的特性进行，不同的格式有不同的处理要求，比如无效的要剔除，缺失值要回填和冗余维度的选择等。大致主要分为三个步骤：数据的准备、转换和输出。本文主要利用sklearn讲解转换数据的常用方法阅读全文

posted @ 2020-02-17 14:50 雨中漫步人生阅读(877) 评论(0) 推荐(0)

2020年2月10日

集成学习之随机森林

摘要：随机森林的主要作用是降低模型的复杂度，解决模型的过拟合问题。 1、随机森林概述¶ 随机森林利用随机的方式将许多决策树组合成一个森林，每个决策树在分类的时候投票决定测试样本的最终类别。 2、随机森林算法流程¶ 随机森林是非常具有代表性的Bagging集成算法，它的所有基评估器都是决策树，分类树组成的森阅读全文

posted @ 2020-02-10 12:19 雨中漫步人生阅读(754) 评论(0) 推荐(0)

2020年2月7日

集成学习之bagging和boosting

摘要：集成算法目标：集成算法会考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现。 1、集成学习概述¶ 集成学习(Ensemble learning)通过构建并结合多个学习器来完成学习任务。一般结构为：先产生一组“个体学习器”，再用某种策略将它们结合起来。但要获阅读全文

posted @ 2020-02-07 11:10 雨中漫步人生阅读(555) 评论(0) 推荐(0)

2020年1月12日

逻辑回归详解

摘要： 1、逻辑回归概述¶ 逻辑回归假设数据服从伯努利分布，通过极大化似然函数方法，运用梯度下降来求解参数，来达到将数据二分目的。本质上就是LR模型可以被认为就是一个被Sigmoid函数（logistic方程）所归一化后的线性回归模型。 Logistic Regression方程如下： $$P(y=1|x 阅读全文

posted @ 2020-01-12 22:00 雨中漫步人生阅读(1196) 评论(0) 推荐(0)

2020年1月6日

决策树之特征选择算法（ID3、C4.5、CART）

摘要： 1、决策树概述¶ 决策树（decision tree）是一种基本的分类与回归方法。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合（互斥并且完备），也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学阅读全文

posted @ 2020-01-06 14:54 雨中漫步人生阅读(6462) 评论(0) 推荐(0)

欢迎来到“雨中漫步”的博客

二八定律，少即是多。

公告