2022 年 3月 8 日随笔档案 - ShowMeAI

2022年3月8日

图解大数据 | Spark机器学习(下)—建模与超参调优

摘要：

本文介绍Spark中用于大数据机器学习的板块MLlib/ML，讲解分类算法、回归算法、聚类算法和PCA降维算法的代码实践，并讲解超参数调优和交叉验证、训练集验证集切分等重要知识点。阅读全文

posted @ 2022-03-08 23:49 ShowMeAI 阅读(396) 评论(0) 推荐(0) 编辑

图解大数据 | Spark机器学习(上)-工作流与特征工程

摘要：

本文介绍Spark中用于大数据机器学习的板块MLlib/ML，讲解机器学习工作流(Pipeline)及其构建方式，并详解讲解基于DataFrame的Spark ML特征工程，包括二值化、定边界离散化、标准化、特征抽取等。阅读全文

posted @ 2022-03-08 23:37 ShowMeAI 阅读(315) 评论(0) 推荐(0) 编辑

图解大数据 | 流式数据处理-Spark Streaming

摘要：

Spark Streaming是Spark核心API的一个扩展，可以实现实时数据的可拓展，高吞吐量。本文讲解Spark Streaming的架构、作业提交和工作原理，以及DStream的创建、转换和Graph，并通过案例代码展示应用的细节。阅读全文

posted @ 2022-03-08 23:17 ShowMeAI 阅读(507) 评论(0) 推荐(0) 编辑

图解大数据 | 综合案例-使用Spark分析挖掘音乐专辑数据

摘要：

文娱影音是目前大数据与AI应用最广泛的场景之一，本案例以音乐专辑发行数据为背景，讲解使用pyspark对HDFS存储的数据进行处理数据分析的过程，并且对分析结果做了可视化呈现。阅读全文

posted @ 2022-03-08 23:01 ShowMeAI 阅读(969) 评论(0) 推荐(0) 编辑

图解大数据 | 综合案例-使用Spark分析挖掘零售交易数据

摘要：

电商与新零售是目前大数据与AI应用最广泛的场景之一，本案例以跨国在线零售业务为背景，讲解使用pyspark对HDFS存储的数据进行交易数据分析的过程，并且对分析结果使用echarts做了可视化呈现。阅读全文

posted @ 2022-03-08 22:30 ShowMeAI 阅读(541) 评论(0) 推荐(0) 编辑

图解大数据 | 综合案例-使用spark分析新冠肺炎疫情数据

摘要：

2020以来新冠疫情改变了全世界，影响着大家的生活，本案例结合大数据分析技术，使用pyspark对2020年美国新冠肺炎疫情进行数据分析，并结合可视化方法进行结果呈现。阅读全文

posted @ 2022-03-08 22:14 ShowMeAI 阅读(1064) 评论(0) 推荐(0) 编辑

图解大数据 | Spark Dataframe/SQL大数据处理分析

摘要：

DataFrame是一个以命名列方式组织的分布式数据集。本文详细讲解 Spark Dataframe的创建方式，Dataframe数据的Agg、Collect、Groupby、Join等核心操作，以及Spark SQL操作核心要点。阅读全文

posted @ 2022-03-08 21:57 ShowMeAI 阅读(306) 评论(0) 推荐(0) 编辑

图解大数据 | 基于Spark RDD的大数据处理分析

摘要：

RDD(弹性分布式数据集合)是Spark的基本数据结构，Spark中的所有数据都是通过RDD的形式进行组织。本文讲解RDD的属性、创建方式、广播与累加器等重要知识点，并图解RDD高频算子。阅读全文

posted @ 2022-03-08 21:27 ShowMeAI 阅读(194) 评论(0) 推荐(0) 编辑

图解大数据 | 大数据分析挖掘-Spark初步

摘要：

Apache Spark是目前最主流和常用的分布式开源处理系统，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。本节ShowMeAI给大家讲解它的相关知识。阅读全文

posted @ 2022-03-08 19:13 ShowMeAI 阅读(105) 评论(0) 推荐(0) 编辑

图解大数据 | 海量数据库查询-Hive与HBase详解

摘要：

HBase是建立在Hadoop文件系统之上的、分布式面向列的数据库，包含Region Server、HBase Master、ZooKeeper等三个组件。Hive是基于Hadoop的一个数据仓库工具，用于结构化数据的查询、分析和汇总。阅读全文

posted @ 2022-03-08 18:52 ShowMeAI 阅读(713) 评论(0) 推荐(0) 编辑

图解大数据 | 实操案例-Hive搭建与应用案例

摘要：

Hive是大数据离线计算的关键组件，常用于数仓建设。本节ShowMeAI来详细讲解Hive的搭建和配置及使用方法。阅读全文

posted @ 2022-03-08 18:24 ShowMeAI 阅读(398) 评论(0) 推荐(0) 编辑

图解大数据 | 实操案例-MapReduce大数据统计

摘要：

Hadoop使用一套Map-Reduce的计算框架，解决了大数据处理的难题。本教程ShowMeAI通过几个实例和代码，详细给大家讲解Hadoop使用Map-Reduce进行数据统计的方法。阅读全文

posted @ 2022-03-08 18:10 ShowMeAI 阅读(308) 评论(0) 推荐(0) 编辑

ShowMeAI

『为AI硬核资料库(cool)而生！』构建AI解决方案，用知识加速每一次技术成长！公众号：ShowMeAI研究中心

公告