2013年4月15日
摘要: 在机器学习中,如果参数很多,而样本数量比较少,很容易产生过拟合问题。因此在函数的损失模型中加入惩罚系数,这些参数一般都会很小,而越小的参数,模型越简单,越不会产生过拟合问题。参考的网页资源为:http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex5/ex5.html实验原理: 假设对于一个由10个点组成的样本,要拟合一条曲线来表示。如果想采取高次多项式预测表示,如下: 那么现在我们有了模型的六个特征,分别对应的六个预测参数。如果用这... 阅读全文
posted @ 2013-04-15 21:26 ahujack 阅读(456) 评论(0) 推荐(1) 编辑
摘要: Hadoop 是什么?Hadoop是一个提供分布式存储和计算能力的,具有对大型数据集的数据分割和并行计算的能力的平台。由上千台hosts组成的cluster(云)可以达到千兆级的存储和计算能力。一个Hadoop平台的核心组成有两个:分布式的计算(利用的是一个MapReduce的框架)和分布式的存储(一个分布式的文件系统叫做HDFS),高层次的结构图如下:HDFS:MapReduce:程序员要做的事情就是定义map和reduce函数,map函数用来输出key/value tuples,然后交给reduce函数生成最后的输出。伪代码如下:map函数有可能产生零个或者多个输出,当条件不满足时,产生零 阅读全文
posted @ 2013-04-15 13:58 ahujack 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 多线程和多进程的区别(小结)很想写点关于多进程和多线程的东西,我确实很爱他们。但是每每想动手写点关于他们的东西,却总是求全心理作祟,始终动不了手。今天终于下了决心,写点东西,以后可以再修修补补也无妨。一.为何需要多进程(或者多线程),为何需要并发?这个问题或许本身都不是个问题。但是对于没有接触过多进程编程的朋友来说,他们确实无法感受到并发的魅力以及必要性。我想,只要你不是整天都写那种int main()到底的代码的人,那么或多或少你会遇到代码响应不够用的情况,也应该有尝过并发编程的甜头。就像一个快餐点的服务员,既要在前台接待客户点餐,又要接电话送外卖,没有分身术肯定会忙得你焦头烂额的。幸运的是 阅读全文
posted @ 2013-04-15 10:35 ahujack 阅读(156) 评论(0) 推荐(0) 编辑