随笔分类 - 机器学习
Spark机器学习、Python机器学习
摘要:一.简介 Word2Vec是一个Estimator表示文档的单词序列并用于训练一个 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel 文档中所有单词的平均值将转换为向量;然后,可以将此向量用作预测,文档相似度计算等功能。 二.例子 在下面的代码段
阅读全文
摘要:一.图像数据源 图像数据源用于从目录加载图像文件,它可以通过ImageIO Java库将压缩图像(jpeg,png等)加载为原始图像表示形式。加载的DataFrame具有一StructType列:“ image”,其中包含存储为图像架构的图像数据。该image列的架构为: origin :(Stri
阅读全文
摘要:一.什么是机器学习? 什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。 平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能
阅读全文
摘要:一.相关性分析 1.简介 计算两个系列数据之间的相关性是统计中的常见操作。在spark.ml中提供了很多算法用来计算两两的相关性。目前支持的相关性算法是Pearson和Spearman。Correlation使用指定的方法计算输入数据集的相关矩阵。输出是一个DataFrame,其中包含向量列的相关矩
阅读全文
摘要:一.简介 TensorFlow是Google第二代机器学习和深度学习框架,支持CNN、RNN和LSTM算法,可以跨平台运行。TensorFlow底层部分是C++实现,具有较高的执行效率。支持不同的前端,包含Python和C++。 二.安装 安装TensorFlow框架需要安装一些依赖工具,这些工具包
阅读全文