摘要:
Azure对于学生账户有260刀的免费试用,火急火燎地创建Hadoop Cluster!本例子是使用Hadoop MapReduce来统计一本电子书中各个单词的出现个数. Let's get hands dirty! 首先,我们在Azure中创建了一个Cluster,并且使用putty Ssh访问了 阅读全文
摘要:
1. Replication: 因为每个HDFS被部署在是低成本的商业硬件上(low cost commodity hardware),所以为了有更佳的Fault Tolerance,HDFS将每个Block备份存储。默认的Replication Factor=3. Note: The NameNo 阅读全文
摘要:
1. What's HDFS? Hadoop Distributed File System is a block-structured file system where each file is divided into blocks of a pre-determined size. Thes 阅读全文
摘要:
1.Problem and Loss Function Linear Regression is a Supervised Learning Algorithm with input matrix X and output label Y. We train a system to make hyp 阅读全文
摘要:
本文解决python中比较令人困惑的一个小问题:传递到函数中的参数若在函数中进行了重新赋值,对于函数外的原变量有何影响。看一个小栗子: 请问程序执行后,a=1还是2?并解释原因。 实际上,这个问题有两个比较tricky的地方: 1. python的变量是没有类型的,类型属于对象。也就是说当我们操作x 阅读全文
摘要:
1. Random Experiments: a.可以在相同条件下,重复进行的实验 b.事先可以知晓实验可能出现的全部结果 c.事先无法预知本次实验会出现什么结果 2. 频率、相对频率与概率 如下图,Data Value这一列,列出了实验中所有可能出现的取值,Frequency是实验20次后,各个V 阅读全文
摘要:
Boosting Ensemble: 机器学习中,Ensemble model除了Bagging以外,更常用的是Boosting。与Bagging不同,Boosting中各个模型是串行的。其思想是,后面的model,要从前面models的预测中结果中,试图将错误纠正。下面两张图可以看出二者的异同: 阅读全文
摘要:
Bootstrap Method:在统计学中,Bootstrap从原始数据中抽取子集,然后分别求取各个子集的统计特征,最终将统计特征合并。例如求取某国人民的平均身高,不可能测量每一个人的身高,但却可以在10个省市,分别招募1000个志愿者来测量并求均值,最终再求取各省市的平均值。 Bagging(B 阅读全文
摘要:
在开始kNN博文之前,举一个小栗子。当手中的杯子突然滑落,从一米多高的空中坠向地板,常人会惊慌失措,心想:坏了,要碎了!这一下意识的想法,恰恰说明了kNN运作的机理:没有人在此之前见过那只特定的杯子打碎的样子, 但是大家见过很多其他杯子打碎的样子,以及很多杯子虽然摔落但没有碎掉的例子。所以我们知道, 阅读全文
摘要:
At the beginning, the difference between rank and dimension: rank is a property for matrix, while dimension for subspaces. So we can obtain the rank o 阅读全文