Data-BigData - 随笔分类(第2页) - 郝壹贰叁

[ML] Feature Selectors

摘要：SparkML中关于特征的算法可分为：Extractors（特征提取）、Transformers（特征转换）、Selectors（特征选择）三部分。 Ref: SparkML中三种特征选择算法（VectorSlicer/RFormula/ChiSqSelector）一、代码示范 VectorSli 阅读全文

posted @ 2019-11-08 11:49 郝壹贰叁阅读(226) 评论(0) 推荐(0) 编辑

[ML] Feature Transformers

摘要：方案选择可参考：[Scikit-learn] 4.3 Preprocessing data 代码示范可参考：[ML] Pyspark ML tutorial for beginners 本篇涉及：Feature Transformers Tokenizer StopWordsRemover nn-g 阅读全文

posted @ 2019-11-06 21:04 郝壹贰叁阅读(452) 评论(0) 推荐(0) 编辑

[ML] Online learning

摘要：复习一、Spark 流处理使用Spark Streaming与我们操作RDD的方式很接近，处理数据流也变得简单了。使用Spark的流处理元素结合MLlib的基于SGD的在线学习能力，可以创建实时的机器学习模型，当数据流到达时实时更新学习模型。 [Spark] 04 - What is Spark 阅读全文

posted @ 2019-11-05 21:20 郝壹贰叁阅读(290) 评论(0) 推荐(0) 编辑

[Hadoop] Phoenix : SQL on HBASE

摘要：开门见山 SQL 一，基础 Ref: [MySQL] 01- Basic sql Ref: [MySQL] 02- Optimisation solutions 作为对比：[Spark] 03 - Spark SQL Hive是一个工具，用于分析． Hive has been known to be 阅读全文

posted @ 2019-11-04 18:47 郝壹贰叁阅读(274) 评论(0) 推荐(0) 编辑

[ML] Load and preview large scale data

摘要：Ref: [Feature] Preprocessing tutorial 主要是 “无量纲化” 之前的部分。加载数据一、大数据源 http://archive.ics.uci.edu/ml/http://aws.amazon.com/publicdatasets/http://www.kagg 阅读全文

posted @ 2019-11-04 08:13 郝壹贰叁阅读(251) 评论(0) 推荐(0) 编辑

[PySpark] RDD programming on a large file

摘要：重难点一、parallelize 方法一般来说，Spark会尝试根据集群的状况，来自动设定slices的数目。然而，你也可以通过传递给parallelize的第二个参数来进行手动设置。 /* conitnue */ Test 1, process large file¶ https://gith 阅读全文

posted @ 2019-11-03 19:19 郝壹贰叁阅读(259) 评论(0) 推荐(0) 编辑

[PySpark] Build R&D environment

摘要：开发环境基本操作 Ref：Spark的环境搭建一、启动集群先启动hadoop，再启动spark，查看启动后的状态：http://node-master:8080 关闭顺序：stop-master.sh --> stop-slaves.sh --> stop-all.sh。二、命令行在Spa 阅读全文

posted @ 2019-11-03 07:48 郝壹贰叁阅读(377) 评论(0) 推荐(0) 编辑

[Hadoop] Yarn & k8s

摘要：写在前面一、大数据全栈头两节讲完HDFS & MapReduce，这一部分聊一聊它们之间的“人物关系”。其中也讨论下k8s的学习必要性。 Ref: [Distributed ML] Yi WANG's talk 二、知识点容器技术与Kubernetes Goto: 3 万容器，知乎基于Kub 阅读全文

posted @ 2019-10-25 08:09 郝壹贰叁阅读(3061) 评论(0) 推荐(0) 编辑

[Hadoop] MapReduce

摘要：MapReduce计算框架既然MR是一种计算框架，那么也存在其他的计算框架。 From: [Distributed ML] Yi WANG's talk 一、逻辑流程 Mapping与Shuffling之间可以插入”Combine“过程，但不一定都适合，比如”求平均值“。 Ref: Java总结篇阅读全文

posted @ 2019-10-24 16:35 郝壹贰叁阅读(296) 评论(0) 推荐(0) 编辑

[Hadoop] HDFS - Hadoop Distributed File System

摘要：写在前面一、历史演进过时笔记：[Spark] 01 - What is Spark 官方文档：https://hadoop.apache.org/docs/r2.7.3/ <Hadoop With Python> 三大模块：HDFS, MapReduce, Yarn 大数据学习技术栈： MapR 阅读全文

posted @ 2019-10-19 16:29 郝壹贰叁阅读(418) 评论(0) 推荐(0) 编辑

[Sklearn] Linear regression models to fit noisy data

摘要：Ref: [Link] sklearn各种回归和预测【各线性模型对噪声的反应】 Ref: Linear Regression 实战【循序渐进思考过程】 Ref: simple linear regression详解【涉及到假设检验】引申问题，如何拟合sin数据呢？如果不引入sin这样周期函数，可阅读全文

posted @ 2019-10-09 08:13 郝壹贰叁阅读(520) 评论(0) 推荐(0) 编辑

[Feature] Final pipeline: custom transformers

摘要：有视频：https://www.youtube.com/watch?v=BFaadIqWlAg 有代码：https://github.com/jem1031/pandas-pipelines-custom-transformers 幼儿级模型一、模型训练简单的preprocessing后，仅使用阅读全文

posted @ 2019-10-06 09:48 郝壹贰叁阅读(372) 评论(0) 推荐(0) 编辑

[Feature] Build pipeline

摘要：准备数据集一、数据集 Ref: 6. Dataset loading utilities【各种数据集选项】第一部分，加载原始iris数据集的数据；第二部分，先增加一行，再增加一列；另一个写法版本，编辑器友好，但读者不友好。串行、并行流一、串行结合并行流有若干知识点：FeatureUni 阅读全文

posted @ 2019-10-05 09:26 郝壹贰叁阅读(422) 评论(0) 推荐(0) 编辑

[Feature] Feature selection - Embedded topic

摘要：基于惩罚项的特征选择法一、直接对特征筛选 Ref: 1.13.4. 使用SelectFromModel选择特征(Feature selection using SelectFromModel) 通过 L1 降维特征 L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个，所以没选到的阅读全文

posted @ 2019-10-02 09:57 郝壹贰叁阅读(480) 评论(0) 推荐(0) 编辑

[Feature] Feature selection

摘要：Ref: 1.13. Feature selection Ref: 1.13. 特征选择(Feature selection) 大纲列表 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 Wrapper 3.2.1 递归特征消除阅读全文

posted @ 2019-09-30 18:11 郝壹贰叁阅读(328) 评论(0) 推荐(0) 编辑

[Feature] Compare the effect of different scalers

摘要：Ref: Compare the effect of different scalers on data with outliers 主要是对该代码的学习研究。 Original data Each transformation is plotted showing two transformed 阅读全文

posted @ 2019-09-30 09:25 郝壹贰叁阅读(397) 评论(0) 推荐(0) 编辑

[Spark] 06 - Structured Streaming

摘要：基本了解响应更快，对过去的架构进行了全新的设计和处理。核心思想：将实时数据流视为一张正在不断添加数据的表，参见Spark SQL's DataFrame。一、微批处理（默认）写日志操作保证一致性。因为要写入日志操作，每次进行微批处理之前，都要先把当前批处理的数据的偏移量要先写到日志里面去阅读全文

posted @ 2019-09-06 11:19 郝壹贰叁阅读(581) 评论(0) 推荐(0) 编辑

[Spark] 05 - Apache Kafka

摘要：前言 Ref: kafka中文教程作为消息中间件，其他组件先跟Kafka交流，然后再有Kafka统一跟Hadoop沟通。一、kafka名词解释 producer：生产者，就是它来生产“鸡蛋”的。 consumer：消费者，生出的“鸡蛋”它来消费。 topic：你把它理解为标签，生产者每生产出来一阅读全文

posted @ 2019-09-04 16:51 郝壹贰叁阅读(340) 评论(0) 推荐(0) 编辑

[Spark] 04 - What is Spark Streaming

摘要：前言 Ref: 一文读懂 Spark 和 Spark Streaming【简明扼要的概览】在讲解 "流计算" 之前，先做一个简单的回顾，亲！一、MapReduce 的问题所在 MapReduce 模型的诞生是大数据处理从无到有的飞跃。但随着技术的进步，对大数据处理的需求也变得越来越复杂，MapR 阅读全文

posted @ 2019-09-03 13:10 郝壹贰叁阅读(348) 评论(0) 推荐(0) 编辑

[Spark] 03 - Spark SQL

摘要：关于Spark SQL (Structured Query Language)，首先会想到一个问题：Apache Hive vs Apache Spark SQL – 13 Amazing Differences Hive has been known to be the component of 阅读全文

posted @ 2019-09-02 17:05 郝壹贰叁阅读(250) 评论(0) 推荐(0) 编辑

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

随笔分类 - Data-BigData

公告

积分与排名

随笔分类 (961)

Academic

Common

阅读排行榜

评论排行榜

最新评论