08 2018 档案

摘要:1.Kmeans聚类算法原理 1.1 概述 K-means算法时集简单和经典于一身的基于距离的聚类算法。采用距离作为相似度的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 1.2 算法图示 假设我们的n个样本点分布在 阅读全文
posted @ 2018-08-27 19:50 牧梦者 阅读(1699) 评论(3) 推荐(0) 编辑
摘要:常见分类模型与算法 距离判别法,即最近邻算法KNN; 贝叶斯分类器; 线性判别法,即逻辑回归算法; 决策树; 支持向量机; 神经网络; 1. KNN分类算法原理及应用 1.1 KNN概述 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 KNN算法的指导思想是 阅读全文
posted @ 2018-08-24 17:42 牧梦者 阅读(24172) 评论(1) 推荐(5) 编辑
摘要:本章导读 机器学习(machine learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科。ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识、新技能,并重组已学习的知识结构使之不断改善自身。 MLlib是Spark提供的可扩展的机器学习库。ML 阅读全文
posted @ 2018-08-15 17:39 牧梦者 阅读(28259) 评论(1) 推荐(3) 编辑
摘要:本章导读 RDD作为Spark对各种数据计算模型的统一抽象,被用于迭代计算过程以及任务输出结果的缓存读写。在所有MapReduce框架中,shuffle是连接map任务和reduce任务的桥梁。map任务的中间输出要作为reduce任务的输入,就必须经过shuffle,shuffle的性能优劣直接决 阅读全文
posted @ 2018-08-10 01:30 牧梦者 阅读(2496) 评论(0) 推荐(0) 编辑
摘要:1. 任务概述 任务提交与执行过程: 1) build operator DAG:此阶段主要完成RDD的转换及DAG的构建; 2) split graph into stages of tasks:此阶段主要完成finalStage的创建与Stage的划分,做好Stage与Task的准备工作后,最后 阅读全文
posted @ 2018-08-07 01:10 牧梦者 阅读(437) 评论(2) 推荐(1) 编辑
摘要:8.初始化管理器BlockManager 无论是Spark的初始化阶段还是任务提交、执行阶段,始终离不开存储体系。Spark为了避免Hadoop读写磁盘的I/O操作成为性能瓶颈,优先将配置信息、计算结果等数据存入内存,这极大地提升了系统的执行效率。正是因为这一关键决策,才让Spark能在大数据应用中 阅读全文
posted @ 2018-08-04 14:25 牧梦者 阅读(939) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示