摘要:
聚类 和 k-means简单概括。 聚类是一种 无监督学习 问题,它的目标就是基于 相似度 将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类,以便使得所获得的聚类满足: 同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 k 阅读全文
摘要:
聚类 和 k-means简单概括。 聚类是一种 无监督学习 问题,它的目标就是基于 相似度 将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类,以便使得所获得的聚类满足: 同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 k 阅读全文
摘要:
回归问题概括: 1) 数据 2) 假设的模型,即一个含有未知的参数的函数。通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据 回归和分类: 都属于有监督的学习 分类返回的是明确的类别信息,0 or 1,是 or 否 回归返回的是,某一个值或者范围的取值概率。如果把概率大小跟最终类别关联起 阅读全文
摘要:
Support vector machines 支持向量机,简称SVM 分类算法的目的是学会一个分类函数或者分类模型(分类器),能够把数据库中的数据项映射给定类别中的某一个,从而可以预测未知类别。 SVM是一种监督式学习的方法。 支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点 机:就是 阅读全文
摘要:
今天遇到了个小问题: 如何在分区表之间复制部分分区数据? 阅读全文
摘要:
学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffle read 边 fetch 边处理还是一次性 fetch 完再处理? 边 fetch 边处理。 MapReduce shu 阅读全文
摘要:
脑袋果然还是智商不足。 涉及到的小需求: 某个表test 有一列 tc: a字符串+b字符串+c字符串 拼接组成 把test表,按b字符串排序 输出 遇到的问题: select 里面必须包含 order by 的列 按b字符串排序后,提取的b字符串作的新列,也被包含在了输出表中 最终解决: 输出含有 阅读全文
摘要:
1. 基础回顾 矩阵的奇异值分解 SVD (特别详细的总结,参考 http://blog.csdn.net/wangzhiqing3/article/details/7446444) 矩阵与向量相乘的结果与特征值,特征向量有关。 数值小的特征值对矩阵-向量相乘的结果贡献小 1)低秩近似 2)特征降维 阅读全文
摘要:
小笔记: Mavon是一种项目管理工具,通过xml配置来设置项目信息。 Mavon POM(project of model). Steps: 1. set up and configure the development environment. 2. writing your map and r 阅读全文
摘要:
4. 假设检验 基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。 显著性检验 原假设与备择假设 常把一个要检验的假设记作 H0,称为原假设(或零假设) (null hypothesis) 与H0对立的假设记作H1,称为备择假设(alternative hypoth 阅读全文
摘要:
1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、 阅读全文
|