摘要:
一、为什么要用独热编码? 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使 阅读全文
摘要:
一、Tokenizer和RegexTokenizer 标记化是获取文本(例如句子)并将其分解为单个术语(通常是单词)的过程。 一个简单的 Tokenizer 类提供了这个功能。 下面的示例显示了如何将句子拆分为单词序列。 RegexTokenizer 允许基于正则表达式 (regex) 匹配的更高级 阅读全文
摘要:
一、TF-IDF (HashingTF and IDF) “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。在Spark ML库中,TF-IDF被分成两部分:TF (+hashing) 和 IDF。 TF: Hashing 阅读全文
摘要:
Spark读取Hive数据的方式主要有两种: 1、通过访问hive metastore的方式,这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径,这种方式的特点是效率高、数据吞吐量大、使用spark操作起来更加友好。 2、通过spark jdbc的方 阅读全文
摘要:
GraphX 公开了存储在图中的顶点和边的 RDD 视图。但是,由于 GraphX 在优化的数据结构中维护了顶点和边,并且这些数据结构提供了额外的功能,所以顶点和边分别返回为 VertexRDDVertexRDD 和 EdgeRDDEdgeRDD。 一、顶点RDD(VertexRDDs) Verte 阅读全文
摘要:
GraphX 提供了几种从 RDD 或磁盘上的顶点和边的集合构建图的方法。 默认情况下,所有图构建器都不会重新划分图的边; 相反,边会留在它们的默认分区中(例如它们在 HDFS 中的原始块)。Graph.groupEdges 要求对图进行重新分区,因为它假定相同的边将位于同一分区上,因此您必须在调用 阅读全文
摘要:
图本质上是递归数据结构,因为顶点的属性取决于其邻居的属性,而邻居的属性又取决于其邻居的属性。因此,许多重要的图算法迭代地重新计算每个顶点的属性,直到达到一个定点条件。已经提出了一系列图并行抽象来表达这些迭代算法。 GraphX 公开了 Pregel API 的一个变体。 GraphX 中的 Preg 阅读全文
摘要:
正如 RDD 具有 map、filter 和 reduceByKey 等基本操作一样,属性图也具有一组基本运算符,这些运算符采用用户定义的函数并生成具有转换后的属性和结构的新图。 具有优化实现的核心算子在 Graph 中定义,在 GraphOps 中定义表示为核心算子组合的便捷算子。 然而,由于 S 阅读全文
摘要:
一、概述 GraphX 是 Spark 四大核心组件之一,它也是使用 Spark 作为计算引擎的,GraphX 是用于图形和图形并行计算的组件,实现了大规模图计算的功能。GraphX 的出现使 Spark 生态系统变得更加完善和丰富,同时它能够与 Spark 生态系统的其它组件天然融合,再加上它强大 阅读全文
摘要:
一、Flume概述 1.1 定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume在实际开发中主要的作用就是,实时的读取服务器本地磁盘的数据,将数据写入到HDFS中。 1.2 Flume架构 Agent是 阅读全文