Suckseedeva - 博客园

公告

2016年7月1日

摘要：学习自 http://blog.csdn.net/xqy1522/article/details/6699740 1. Map Join 的使用场景：关联操作中有一张表非常小不等值的链接操作 2. 语法：使用 hint 的方式指定join时使用mapjoin。用时才发现了个细节： /*+ma 阅读全文

posted @ 2016-07-01 11:05 Suckseedeva 阅读(1062) 评论(0) 推荐(0)

2016年6月30日

[聚类算法] K-means 算法

摘要：聚类和 k-means简单概括。聚类是一种无监督学习问题，它的目标就是基于相似度将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类，以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。 k 阅读全文

posted @ 2016-06-30 18:00 Suckseedeva 阅读(682) 评论(0) 推荐(0)

2016年6月28日

[回归问题] 逻辑回归，线性回归

摘要：回归问题概括： 1）数据 2）假设的模型，即一个含有未知的参数的函数。通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据回归和分类：都属于有监督的学习分类返回的是明确的类别信息，0 or 1，是 or 否回归返回的是，某一个值或者范围的取值概率。如果把概率大小跟最终类别关联起阅读全文

posted @ 2016-06-28 13:47 Suckseedeva 阅读(675) 评论(0) 推荐(0)

2016年6月27日

[分类算法] ：SVM支持向量机

摘要： Support vector machines 支持向量机，简称SVM 分类算法的目的是学会一个分类函数或者分类模型（分类器），能够把数据库中的数据项映射给定类别中的某一个，从而可以预测未知类别。 SVM是一种监督式学习的方法。支持向量：支持或支撑平面上把两类类别划分开来的超平面的向量点机：就是阅读全文

posted @ 2016-06-27 15:53 Suckseedeva 阅读(480) 评论(0) 推荐(0)

2016年6月22日

分区复制数据

摘要：今天遇到了个小问题：如何在分区表之间复制部分分区数据？阅读全文

posted @ 2016-06-22 19:05 Suckseedeva 阅读(450) 评论(0) 推荐(0)

2016年6月16日

Spark 与 MapReduce的区别

摘要：学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffle read 边 fetch 边处理还是一次性 fetch 完再处理？边 fetch 边处理。 MapReduce shu 阅读全文

posted @ 2016-06-16 19:21 Suckseedeva 阅读(1788) 评论(0) 推荐(0)

2016年6月13日

Hive 按某列的部分排序以及删列操作

摘要：脑袋果然还是智商不足。涉及到的小需求：某个表test 有一列 tc： a字符串+b字符串+c字符串拼接组成把test表，按b字符串排序输出遇到的问题： select 里面必须包含 order by 的列按b字符串排序后，提取的b字符串作的新列，也被包含在了输出表中最终解决：输出含有阅读全文

posted @ 2016-06-13 18:00 Suckseedeva 阅读(2303) 评论(2) 推荐(0)

2016年6月8日

[协同过滤] : 交替最小二乘法

摘要： 1. 基础回顾矩阵的奇异值分解 SVD （特别详细的总结，参考 http://blog.csdn.net/wangzhiqing3/article/details/7446444）矩阵与向量相乘的结果与特征值，特征向量有关。数值小的特征值对矩阵-向量相乘的结果贡献小 1）低秩近似 2）特征降维阅读全文

posted @ 2016-06-08 14:53 Suckseedeva 阅读(10350) 评论(0) 推荐(1)

2016年6月7日

Hadoop 学习笔记3 Develping MapReduce

摘要：小笔记： Mavon是一种项目管理工具，通过xml配置来设置项目信息。 Mavon POM(project of model). Steps: 1. set up and configure the development environment. 2. writing your map and r 阅读全文

posted @ 2016-06-07 15:56 Suckseedeva 阅读(397) 评论(0) 推荐(0)

2016年6月6日

Spark MLib 基本统计汇总 2

摘要： 4. 假设检验基础回顾：假设检验，用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。显著性检验原假设与备择假设常把一个要检验的假设记作 H0,称为原假设（或零假设） (null hypothesis) 与H0对立的假设记作H1，称为备择假设(alternative hypoth 阅读全文

posted @ 2016-06-06 14:11 Suckseedeva 阅读(1321) 评论(0) 推荐(1)

见贤思小齐，知足常乐呵

公告