摘要:
Generative Adversarial Networks GAN框架 GAN框架是有两个对象(discriminator,generator)的对抗游戏。generator是一个生成器,generator产生来自和训练样本一样的分布的样本。discriminator是一个判别器,判别是真实数据还是generator产生的伪造数据。discriminator使用传统的监督学习技术进行训... 阅读全文
摘要:
本文转载自:http://blog.csdn.net/qq_26898461/article/details/50593328 海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普 阅读全文
摘要:
Python如何进行中文注释:网址 解决Python UnicodeEncodeError: 'ascii' codec can't encode: 网址1、网址2、网址3 Python 字符串转换为日期格式:网址1、网址2 Python读写Json文件:网址 python同时遍历两个list:网址 阅读全文
摘要:
1. Param Spark ML使用一个自定义的Map(ParmaMap类型),其实该类内部使用了mutable.Map容器来存储数据。 如下所示其定义: Class ParamMap private[ml] (private val map.mutable.Map[Param[Any],Any] 阅读全文
摘要:
1. 概述 1.1 功能 MLlib是Spark的机器学习(machine learing)库,其目标是使得机器学习的使用更加方便和简单,其具有如下功能: ML算法:常用的学习算法,包括分类、回归、聚类和过滤; 特征:特征萃取、转换、降维和选取; Pipelines:其是一个工具,目标是用于构建、测 阅读全文
摘要:
Structured Streaming提供一些API来管理Streaming对象。用户可以通过这些API来手动管理已经启动的Streaming,保证在系统中的Streaming有序执行。 1. StreamingQuery 在调用DataStreamWriter方法的start启动Streamin 阅读全文
摘要:
1. 结构 1.1 概述 Structured Streaming组件滑动窗口功能由三个参数决定其功能:窗口时间、滑动步长和触发时间. 窗口时间:是指确定数据操作的长度; 滑动步长:是指窗口每次向前移动的时间长度; 触发时间:是指Structured Streaming将数据写入外部DataStre 阅读全文
摘要:
Spark Structured streaming API支持的输出源有:Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述,而Memory使用非常简单。本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式。 1. Fil 阅读全文
摘要:
Spark Structured Streaming目前的2.1.0版本只支持输入源:File、kafka和socket。 1. Socket Socket方式是最简单的数据输入源,如Quick example所示的程序,就是使用的这种方式。用户只需要指定"socket"形式并配置监听的IP和Por 阅读全文
摘要:
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架。这篇是介绍Spark Structured Streaming的基本开发方法。以Spark 自带的example进行测试和介绍,其为"StructuredNetw 阅读全文