2022 年 3月随笔档案 - ShowMeAI

机器学习实战 | AutoML自动化机器学习建模

摘要：

本篇介绍工具库FLAML。FLAML 由 Microsoft Research 开发，适用于AutoML自动化机器学习建模，构建端到端机器学习流程、解决实际场景问题。阅读全文

posted @ 2022-03-22 01:29 ShowMeAI 阅读(338) 评论(0) 推荐(0) 编辑

机器学习实战 | 自动化特征工程工具Featuretools应用

摘要：

本篇讲解使用自动化特征工程工具Featuretools，对数据进行自动化特征工程的方法，并借助于BigMart Sales数据集来演示自动化特征工程的相关应用。阅读全文

posted @ 2022-03-22 01:17 ShowMeAI 阅读(243) 评论(0) 推荐(0) 编辑

机器学习实战 | 机器学习特征工程最全解读

摘要：

本篇内容给大家详细讲解了特征工程的知识，包括数据清洗（数据对齐、缺失值处理、异常值处理），特征构建，特征变换，特征选择与实战特征工程经验等内容。阅读全文

posted @ 2022-03-22 00:56 ShowMeAI 阅读(3970) 评论(0) 推荐(1) 编辑

机器学习实战 | 综合项目-电商销量预估进阶方案

摘要：

本篇内容是Kaggle数据科学竞赛Rossmann store sales解决方案的进阶版本，整体方案包括探索性数据分析、缺失值处理、特征工程、基准模型与评估、XGBoost建模与调优等完整板块。阅读全文

posted @ 2022-03-22 00:08 ShowMeAI 阅读(396) 评论(0) 推荐(0) 编辑

机器学习实战 | 综合项目-电商销量预估

摘要：

本篇内容基于Kaggle数据科学竞赛Rossmann store sales，梳理和总结基于Python解决电商建模的全过程：包括数据探索分析、数据预处理与特征工程、建模与调优。阅读全文

posted @ 2022-03-22 00:00 ShowMeAI 阅读(345) 评论(0) 推荐(0) 编辑

机器学习实战 | LightGBM建模应用详解

摘要：

本篇详细讲解LightGBM的工程应用方法。LightGBM是微软开发的boosting集成模型，和XGBoost一样是对GBDT的优化和高效实现，但它很多方面比XGBoost有着更为优秀的表现。阅读全文

posted @ 2022-03-21 23:39 ShowMeAI 阅读(835) 评论(0) 推荐(1) 编辑

机器学习实战 | XGBoost建模应用详解

摘要：

本篇内容详细讲解XGBoost的工程应用方法。XGBoost是一个非常强大的Boosting算法工具包，是很多大厂机器学习方案的模型首选，在并行计算效率、缺失值处理、控制过拟合等能力上都表现非常优秀。阅读全文

posted @ 2022-03-21 23:28 ShowMeAI 阅读(1936) 评论(0) 推荐(1) 编辑

机器学习实战 | SKLearn最全应用指南

摘要：

本篇内容详解scikit-learn工具库的用法，覆盖机器学习基础知识、SKLearn讲解、SKLearn三大核心API、SKLearn高级API等内容。阅读全文

posted @ 2022-03-21 22:52 ShowMeAI 阅读(4521) 评论(0) 推荐(1) 编辑

机器学习实战 | SKLearn入门与简单应用案例

摘要：

本篇内容介绍了SKLearn的核心板块，并通过SKLearn自带的数据集，讲解一个典型应用案例。阅读全文

posted @ 2022-03-21 21:45 ShowMeAI 阅读(703) 评论(0) 推荐(0) 编辑

机器学习实战 | Python机器学习算法应用实践

摘要：

本篇文章详解机器学习应用流程，应用在结构化数据和非结构化数据(图像)上，借助案例重温机器学习基础知识，并学习应用机器学习解决问题的基本流程。阅读全文

posted @ 2022-03-21 21:29 ShowMeAI 阅读(602) 评论(0) 推荐(0) 编辑

机器学习实战：手把手教你玩转机器学习系列

摘要：

Python机器学习实战系列教程，以案例和代码驱动的方式，帮助大家学习机器学习算法应用流程和各个链条环节，掌握构建场景建模解决方案并进行效果调优的能力。阅读全文

posted @ 2022-03-21 21:14 ShowMeAI 阅读(279) 评论(0) 推荐(0) 编辑

图解机器学习算法 | 从入门到精通系列教程

摘要：

本篇内容是ShowMeAI组织的「图解机器学习算法」系列教程入口，本教程尽量以生动可视化的方式，帮助大家理解机器学习的核心知识和重要的系列模型，并配以相关的代码实现帮助大家了解应用方法。（对机器学习实战感兴趣的同学，可以关注ShowMeAI的另外一个系列[机器学习应用实践]）阅读全文

posted @ 2022-03-11 13:16 ShowMeAI 阅读(772) 评论(0) 推荐(0) 编辑

图解机器学习 | 降维算法详解

摘要：

PCA（主成分分析）可以在对数据完成降维「压缩」的同时，尽量减少信息损失。本文讲解PCA算法的原理、步骤与Python代码实践，并讲解PCA的必要数学基础知识——基变换、方差、协方差等。阅读全文

posted @ 2022-03-11 12:46 ShowMeAI 阅读(969) 评论(0) 推荐(0) 编辑

图解机器学习 | 聚类算法详解

摘要：

聚类是最常见的无监督学习算法。本文讲解聚类问题常见算法及用途，包括划分聚类的K-Means算法、K-Medoids算法，层次聚类的Single-Linkage 算法、Complete-Linkage算法，和DB-SCAN算法。阅读全文

posted @ 2022-03-10 18:53 ShowMeAI 阅读(1720) 评论(0) 推荐(0) 编辑

图解机器学习 | 支持向量机模型详解

摘要：

SVM是机器学习领域非常知名的模型。本文讲解SVM的最大间隔分类器、模型原理、核函数与核技巧等重要知识点，并附上线性核函数、多项式核函数和高斯核函数的Python代码实践。阅读全文

posted @ 2022-03-10 18:23 ShowMeAI 阅读(2434) 评论(0) 推荐(0) 编辑

图解机器学习 | LightGBM模型详解

摘要：

LightGBM是GBDT的进化版本，在效率、内存、准确率方面表现优秀。本文讲解LightGBM的动机、优缺点及优化点、决策树算法及生长策略、类别性特征支持、并行支持与优化等重要知识点。阅读全文

posted @ 2022-03-10 17:38 ShowMeAI 阅读(5320) 评论(0) 推荐(1) 编辑

图解机器学习 | XGBoost模型详解

摘要：

XGBoost一个非常强大的Boosting算法工具包，本文讲解XGBoost的算法原理和工程实现，包括监督学习、回归树、集成、Gradient Boosting详细步骤，以及XGBoost的并行列块涉及、缓存访问等工程优化知识。阅读全文

posted @ 2022-03-10 16:55 ShowMeAI 阅读(8603) 评论(0) 推荐(0) 编辑

图解机器学习 | GBDT模型详解

摘要：

GBDT是一种迭代的决策树算法，将决策树与集成思想进行了有效的结合。本文讲解GBDT算法的Boosting核心思想、训练过程、优缺点、与随机森林的对比、以及Python代码实现。阅读全文

posted @ 2022-03-10 15:27 ShowMeAI 阅读(861) 评论(0) 推荐(0) 编辑

图解机器学习 | 回归树模型详解

摘要：

用于回归任务的决策树称作回归树，属性选择与生长方式与分类决策树不同。本文讲解决策树回归算法的核心思想、启发式切分、最优属性选择、过拟合、正则化、以及缺失值处理等关键知识点。阅读全文

posted @ 2022-03-10 15:08 ShowMeAI 阅读(1161) 评论(0) 推荐(0) 编辑

图解机器学习 | 随机森林分类模型详解

摘要：

随机森林是一种由决策树构成的（并行）集成算法。本文讲解随机森林算法涉及的模型集成、Bagging、算法特点及优缺点等重要知识点，最后介绍关键参数和参数调优。阅读全文

posted @ 2022-03-10 14:27 ShowMeAI 阅读(1937) 评论(0) 推荐(0) 编辑

图解机器学习 | 决策树模型详解

摘要：

决策树是机器学习中一种经典的分类与回归算法。本文讲解用于分类的决策树，包括算法核心思想、算法过程、最优划分、属性选择、过拟合与连续值处理、缺失值处理等重要知识点。阅读全文

posted @ 2022-03-10 14:06 ShowMeAI 阅读(2762) 评论(0) 推荐(0) 编辑

图解机器学习 | 朴素贝叶斯算法详解

摘要：

朴素贝叶斯是一个非常直观的模型。本文讲解朴素贝叶斯算法的核心思想、贝叶斯公式、条件独立假设、平滑出等重要知识点，并图解多项式贝叶斯和伯努利贝叶斯等多种形态。阅读全文

posted @ 2022-03-10 13:32 ShowMeAI 阅读(2509) 评论(1) 推荐(0) 编辑

图解机器学习 | 逻辑回归算法详解

摘要：

逻辑回归简单有效且可解释性强，是机器学习领域最常见的模型之一。本文讲解逻辑回归算法的核心思想，并讲解sigmoid函数、梯度下降、解决过拟合、线性/非线性切分等重要知识点。阅读全文

posted @ 2022-03-10 12:47 ShowMeAI 阅读(1921) 评论(0) 推荐(0) 编辑

图解机器学习 | KNN算法及其应用

摘要：

KNN算法（K近邻算法）是一种很朴实的机器学习方法，既可以做分类，也可以做回归。本文详细讲解KNN算法相关的知识，包括：核心思想、算法步骤、核心要素、缺点与改进等。阅读全文

posted @ 2022-03-10 00:27 ShowMeAI 阅读(600) 评论(0) 推荐(0) 编辑

图解机器学习 | 模型评估方法与准则

摘要：

在AI场景下，我们同样需要定量的数值化指标，来指导我们更好地应用模型对数据进行学习和建模。本文讲解模型评估的一般流程，以及分类评估指标、回归评估指标的计算方式和适用场景。阅读全文

posted @ 2022-03-10 00:03 ShowMeAI 阅读(1235) 评论(0) 推荐(0) 编辑

图解机器学习 | 机器学习基础知识

摘要：

本文覆盖机器学习常见知识要点，包括机器学习流程、算法分类（监督学习、无监督学习、强化学习）、依托的问题场景（分类、回归、聚类、降维）、机器学习模型评估与选择等。阅读全文

posted @ 2022-03-09 23:35 ShowMeAI 阅读(487) 评论(1) 推荐(0) 编辑

图解大数据 | Spark GraphFrames-基于图的数据分析挖掘

摘要：

GraphFrames库构建在DataFrame之上，具备DataFrame强大的性能，也提供了统一的图处理API。本文讲解GraphFrames的构建使用，包括query与数据分析、图中点与边的计算、图入度与出度的应用等。阅读全文

posted @ 2022-03-09 00:04 ShowMeAI 阅读(628) 评论(0) 推荐(0) 编辑

图解大数据 | Spark机器学习(下)—建模与超参调优

摘要：

本文介绍Spark中用于大数据机器学习的板块MLlib/ML，讲解分类算法、回归算法、聚类算法和PCA降维算法的代码实践，并讲解超参数调优和交叉验证、训练集验证集切分等重要知识点。阅读全文

posted @ 2022-03-08 23:49 ShowMeAI 阅读(403) 评论(0) 推荐(0) 编辑

图解大数据 | Spark机器学习(上)-工作流与特征工程

摘要：

本文介绍Spark中用于大数据机器学习的板块MLlib/ML，讲解机器学习工作流(Pipeline)及其构建方式，并详解讲解基于DataFrame的Spark ML特征工程，包括二值化、定边界离散化、标准化、特征抽取等。阅读全文

posted @ 2022-03-08 23:37 ShowMeAI 阅读(331) 评论(0) 推荐(0) 编辑

图解大数据 | 流式数据处理-Spark Streaming

摘要：

Spark Streaming是Spark核心API的一个扩展，可以实现实时数据的可拓展，高吞吐量。本文讲解Spark Streaming的架构、作业提交和工作原理，以及DStream的创建、转换和Graph，并通过案例代码展示应用的细节。阅读全文

posted @ 2022-03-08 23:17 ShowMeAI 阅读(526) 评论(0) 推荐(0) 编辑

图解大数据 | 综合案例-使用Spark分析挖掘音乐专辑数据

摘要：

文娱影音是目前大数据与AI应用最广泛的场景之一，本案例以音乐专辑发行数据为背景，讲解使用pyspark对HDFS存储的数据进行处理数据分析的过程，并且对分析结果做了可视化呈现。阅读全文

posted @ 2022-03-08 23:01 ShowMeAI 阅读(1007) 评论(0) 推荐(0) 编辑

图解大数据 | 综合案例-使用Spark分析挖掘零售交易数据

摘要：

电商与新零售是目前大数据与AI应用最广泛的场景之一，本案例以跨国在线零售业务为背景，讲解使用pyspark对HDFS存储的数据进行交易数据分析的过程，并且对分析结果使用echarts做了可视化呈现。阅读全文

posted @ 2022-03-08 22:30 ShowMeAI 阅读(587) 评论(0) 推荐(0) 编辑

图解大数据 | 综合案例-使用spark分析新冠肺炎疫情数据

摘要：

2020以来新冠疫情改变了全世界，影响着大家的生活，本案例结合大数据分析技术，使用pyspark对2020年美国新冠肺炎疫情进行数据分析，并结合可视化方法进行结果呈现。阅读全文

posted @ 2022-03-08 22:14 ShowMeAI 阅读(1091) 评论(0) 推荐(0) 编辑

图解大数据 | Spark Dataframe/SQL大数据处理分析

摘要：

DataFrame是一个以命名列方式组织的分布式数据集。本文详细讲解 Spark Dataframe的创建方式，Dataframe数据的Agg、Collect、Groupby、Join等核心操作，以及Spark SQL操作核心要点。阅读全文

posted @ 2022-03-08 21:57 ShowMeAI 阅读(316) 评论(0) 推荐(0) 编辑

图解大数据 | 基于Spark RDD的大数据处理分析

摘要：

RDD(弹性分布式数据集合)是Spark的基本数据结构，Spark中的所有数据都是通过RDD的形式进行组织。本文讲解RDD的属性、创建方式、广播与累加器等重要知识点，并图解RDD高频算子。阅读全文

posted @ 2022-03-08 21:27 ShowMeAI 阅读(216) 评论(0) 推荐(0) 编辑

图解大数据 | 大数据分析挖掘-Spark初步

摘要：

Apache Spark是目前最主流和常用的分布式开源处理系统，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。本节ShowMeAI给大家讲解它的相关知识。阅读全文

posted @ 2022-03-08 19:13 ShowMeAI 阅读(106) 评论(0) 推荐(0) 编辑

图解大数据 | 海量数据库查询-Hive与HBase详解

摘要：

HBase是建立在Hadoop文件系统之上的、分布式面向列的数据库，包含Region Server、HBase Master、ZooKeeper等三个组件。Hive是基于Hadoop的一个数据仓库工具，用于结构化数据的查询、分析和汇总。阅读全文

posted @ 2022-03-08 18:52 ShowMeAI 阅读(723) 评论(0) 推荐(0) 编辑

图解大数据 | 实操案例-Hive搭建与应用案例

摘要：

Hive是大数据离线计算的关键组件，常用于数仓建设。本节ShowMeAI来详细讲解Hive的搭建和配置及使用方法。阅读全文

posted @ 2022-03-08 18:24 ShowMeAI 阅读(414) 评论(0) 推荐(0) 编辑

图解大数据 | 实操案例-MapReduce大数据统计

摘要：

Hadoop使用一套Map-Reduce的计算框架，解决了大数据处理的难题。本教程ShowMeAI通过几个实例和代码，详细给大家讲解Hadoop使用Map-Reduce进行数据统计的方法。阅读全文

posted @ 2022-03-08 18:10 ShowMeAI 阅读(318) 评论(0) 推荐(0) 编辑

ShowMeAI

『为AI硬核资料库(cool)而生！』构建AI解决方案，用知识加速每一次技术成长！公众号：ShowMeAI研究中心

03 2022 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论