上一页 1 2 3 4 5 6 7 8 9 10 ··· 12 下一页
摘要: 1. SparkContext概述 注意:SparkContext的初始化剖析是基于Spark2.1.0版本的 Spark Driver用于提交用户应用程序,实际可以看作Spark的客户端。了解Spark Driver的初始化,有助于读者理解用户应用程序在客户端的处理过程。 Spark Driver 阅读全文
posted @ 2018-11-20 10:55 牧梦者 阅读(2080) 评论(0) 推荐(0) 编辑
摘要: 最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起 阅读全文
posted @ 2018-11-12 16:11 牧梦者 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 1. 集成学习(Ensemble learning) 基本思想:让机器学习效果更好,如果单个分类器表现的很好,那么为什么不适用多个分类器呢? 通过集成学习可以提高整体的泛化能力,但是这种提高是有条件的: (1)分类器之间应该有差异性; (2)每个分类器的精度必须大于0.5; 如果使用的分类器没有差异 阅读全文
posted @ 2018-11-09 01:44 牧梦者 阅读(1594) 评论(0) 推荐(0) 编辑
摘要: 1.线性回归 简述: 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是一次方)。只有一个自变量的情况称为简单回归,大于一个自变量情况 阅读全文
posted @ 2018-10-08 22:32 牧梦者 阅读(2112) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘流程: (一)数据读取: 读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成任务 (二)特征理解分析 单特征分析,逐个变量分析其对结果的影响 多变量统计分析,综合考虑多种情况影响 统计绘图得出结论 (三)数据清洗与预处理 对缺失值进行填充 特征标准化/归一化 筛选有价值的特征 分析 阅读全文
posted @ 2018-09-26 22:44 牧梦者 阅读(1161) 评论(0) 推荐(0) 编辑
摘要: 1. 统计学 统计学可以分为:描述统计学与推断统计学 描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。 推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作 阅读全文
posted @ 2018-09-03 10:59 牧梦者 阅读(4011) 评论(0) 推荐(0) 编辑
摘要: 1.Kmeans聚类算法原理 1.1 概述 K-means算法时集简单和经典于一身的基于距离的聚类算法。采用距离作为相似度的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 1.2 算法图示 假设我们的n个样本点分布在 阅读全文
posted @ 2018-08-27 19:50 牧梦者 阅读(1683) 评论(3) 推荐(0) 编辑
摘要: 常见分类模型与算法 距离判别法,即最近邻算法KNN; 贝叶斯分类器; 线性判别法,即逻辑回归算法; 决策树; 支持向量机; 神经网络; 1. KNN分类算法原理及应用 1.1 KNN概述 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 KNN算法的指导思想是 阅读全文
posted @ 2018-08-24 17:42 牧梦者 阅读(23926) 评论(1) 推荐(5) 编辑
摘要: 本章导读 机器学习(machine learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科。ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识、新技能,并重组已学习的知识结构使之不断改善自身。 MLlib是Spark提供的可扩展的机器学习库。ML 阅读全文
posted @ 2018-08-15 17:39 牧梦者 阅读(28162) 评论(1) 推荐(3) 编辑
摘要: 本章导读 RDD作为Spark对各种数据计算模型的统一抽象,被用于迭代计算过程以及任务输出结果的缓存读写。在所有MapReduce框架中,shuffle是连接map任务和reduce任务的桥梁。map任务的中间输出要作为reduce任务的输入,就必须经过shuffle,shuffle的性能优劣直接决 阅读全文
posted @ 2018-08-10 01:30 牧梦者 阅读(2464) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 12 下一页