随笔分类 -  Data-BigData

Data Science
摘要:SparkML中关于特征的算法可分为:Extractors(特征提取)、Transformers(特征转换)、Selectors(特征选择)三部分。 Ref: SparkML中三种特征选择算法(VectorSlicer/RFormula/ChiSqSelector) 一、代码示范 VectorSli 阅读全文
posted @ 2019-11-08 11:49 郝壹贰叁 阅读(226) 评论(0) 推荐(0) 编辑
摘要:方案选择可参考:[Scikit-learn] 4.3 Preprocessing data 代码示范可参考:[ML] Pyspark ML tutorial for beginners 本篇涉及:Feature Transformers Tokenizer StopWordsRemover nn-g 阅读全文
posted @ 2019-11-06 21:04 郝壹贰叁 阅读(452) 评论(0) 推荐(0) 编辑
摘要:复习 一、Spark 流处理 使用Spark Streaming与我们操作RDD的方式很接近,处理数据流也变得简单了。使用Spark的流处理元素结合MLlib的基于SGD的在线学习能力,可以创建实时的机器学习模型,当数据流到达时实时更新学习模型。 [Spark] 04 - What is Spark 阅读全文
posted @ 2019-11-05 21:20 郝壹贰叁 阅读(290) 评论(0) 推荐(0) 编辑
摘要:开门见山 SQL 一,基础 Ref: [MySQL] 01- Basic sql Ref: [MySQL] 02- Optimisation solutions 作为对比:[Spark] 03 - Spark SQL Hive是一个工具,用于分析. Hive has been known to be 阅读全文
posted @ 2019-11-04 18:47 郝壹贰叁 阅读(274) 评论(0) 推荐(0) 编辑
摘要:Ref: [Feature] Preprocessing tutorial 主要是 “无量纲化” 之前的部分。 加载数据 一、大数据源 http://archive.ics.uci.edu/ml/http://aws.amazon.com/publicdatasets/http://www.kagg 阅读全文
posted @ 2019-11-04 08:13 郝壹贰叁 阅读(251) 评论(0) 推荐(0) 编辑
摘要:重难点 一、parallelize 方法 一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目。然而,你也可以通过传递给parallelize的第二个参数来进行手动设置。 /* conitnue */ Test 1, process large file¶ https://gith 阅读全文
posted @ 2019-11-03 19:19 郝壹贰叁 阅读(259) 评论(0) 推荐(0) 编辑
摘要:开发环境 基本操作 Ref:Spark的环境搭建 一、启动集群 先启动hadoop,再启动spark,查看启动后的状态:http://node-master:8080 关闭顺序:stop-master.sh --> stop-slaves.sh --> stop-all.sh。 二、命令行 在Spa 阅读全文
posted @ 2019-11-03 07:48 郝壹贰叁 阅读(377) 评论(0) 推荐(0) 编辑
摘要:写在前面 一、大数据全栈 头两节讲完HDFS & MapReduce,这一部分聊一聊它们之间的“人物关系”。 其中也讨论下k8s的学习必要性。 Ref: [Distributed ML] Yi WANG's talk 二、知识点 容器技术与Kubernetes Goto: 3 万容器,知乎基于Kub 阅读全文
posted @ 2019-10-25 08:09 郝壹贰叁 阅读(3061) 评论(0) 推荐(0) 编辑
摘要:MapReduce计算框架 既然MR是一种计算框架,那么也存在其他的计算框架。 From: [Distributed ML] Yi WANG's talk 一、逻辑流程 Mapping与Shuffling之间可以插入”Combine“过程,但不一定都适合,比如”求平均值“。 Ref: Java总结篇 阅读全文
posted @ 2019-10-24 16:35 郝壹贰叁 阅读(296) 评论(0) 推荐(0) 编辑
摘要:写在前面 一、历史演进 过时笔记:[Spark] 01 - What is Spark 官方文档:https://hadoop.apache.org/docs/r2.7.3/ <Hadoop With Python> 三大模块:HDFS, MapReduce, Yarn 大数据学习技术栈: MapR 阅读全文
posted @ 2019-10-19 16:29 郝壹贰叁 阅读(418) 评论(0) 推荐(0) 编辑
摘要:Ref: [Link] sklearn各种回归和预测【各线性模型对噪声的反应】 Ref: Linear Regression 实战【循序渐进思考过程】 Ref: simple linear regression详解【涉及到假设检验】 引申问题,如何拟合sin数据呢? 如果不引入sin这样周期函数,可 阅读全文
posted @ 2019-10-09 08:13 郝壹贰叁 阅读(520) 评论(0) 推荐(0) 编辑
摘要:有视频:https://www.youtube.com/watch?v=BFaadIqWlAg 有代码:https://github.com/jem1031/pandas-pipelines-custom-transformers 幼儿级模型 一、模型训练 简单的preprocessing后,仅使用 阅读全文
posted @ 2019-10-06 09:48 郝壹贰叁 阅读(372) 评论(0) 推荐(0) 编辑
摘要:准备数据集 一、数据集 Ref: 6. Dataset loading utilities【各种数据集选项】 第一部分,加载原始iris数据集的数据; 第二部分,先增加一行,再增加一列; 另一个写法版本,编辑器友好,但读者不友好。 串行、并行流 一、串行结合并行流 有若干知识点:FeatureUni 阅读全文
posted @ 2019-10-05 09:26 郝壹贰叁 阅读(422) 评论(0) 推荐(0) 编辑
摘要:基于惩罚项的特征选择法 一、直接对特征筛选 Ref: 1.13.4. 使用SelectFromModel选择特征(Feature selection using SelectFromModel) 通过 L1 降维特征 L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个,所以没选到的 阅读全文
posted @ 2019-10-02 09:57 郝壹贰叁 阅读(480) 评论(0) 推荐(0) 编辑
摘要:Ref: 1.13. Feature selection Ref: 1.13. 特征选择(Feature selection) 大纲列表 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 Wrapper 3.2.1 递归特征消除 阅读全文
posted @ 2019-09-30 18:11 郝壹贰叁 阅读(328) 评论(0) 推荐(0) 编辑
摘要:Ref: Compare the effect of different scalers on data with outliers 主要是对该代码的学习研究。 Original data Each transformation is plotted showing two transformed 阅读全文
posted @ 2019-09-30 09:25 郝壹贰叁 阅读(397) 评论(0) 推荐(0) 编辑
摘要:基本了解 响应更快,对过去的架构进行了全新的设计和处理。 核心思想:将实时数据流视为一张正在不断添加数据的表,参见Spark SQL's DataFrame。 一、微批处理(默认) 写日志操作 保证一致性。 因为要写入日志操作,每次进行微批处理之前,都要先把当前批处理的数据的偏移量要先写到日志里面去 阅读全文
posted @ 2019-09-06 11:19 郝壹贰叁 阅读(581) 评论(0) 推荐(0) 编辑
摘要:前言 Ref: kafka中文教程 作为消息中间件,其他组件先跟Kafka交流,然后再有Kafka统一跟Hadoop沟通。 一、kafka名词解释 producer:生产者,就是它来生产“鸡蛋”的。 consumer:消费者,生出的“鸡蛋”它来消费。 topic:你把它理解为标签,生产者每生产出来一 阅读全文
posted @ 2019-09-04 16:51 郝壹贰叁 阅读(340) 评论(0) 推荐(0) 编辑
摘要:前言 Ref: 一文读懂 Spark 和 Spark Streaming【简明扼要的概览】 在讲解 "流计算" 之前,先做一个简单的回顾,亲! 一、MapReduce 的问题所在 MapReduce 模型的诞生是大数据处理从无到有的飞跃。但随着技术的进步,对大数据处理的需求也变得越来越复杂,MapR 阅读全文
posted @ 2019-09-03 13:10 郝壹贰叁 阅读(348) 评论(0) 推荐(0) 编辑
摘要:关于Spark SQL (Structured Query Language),首先会想到一个问题:Apache Hive vs Apache Spark SQL – 13 Amazing Differences Hive has been known to be the component of 阅读全文
posted @ 2019-09-02 17:05 郝壹贰叁 阅读(250) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示