94julia

2013年4月26日

摘要： Deep Learning（深度学习）最近火爆的不行，不论是以NIPS,ICML,CVPR这些top conference为代表的学术界，还是以Google，Microsoft，IBM为代表的工业界，都加入到了轰轰烈烈的深度学习行列中。在可以预见的相当长一段时间内，Deep Learning依然会持续这种热点状态。下面的工作和Deep Learning的内容很相关，希望能够比较深入详细的研究一下其相关的内容。后面会坚持记录下学习过程，既是对自己的鼓励，也希望能够和更多的朋友进行交流。应该如何开头呢？这个话题千头万绪的，自己也没有仔细整理过，都是东拼西凑零零散散的东西。记得以前一个教育家说过，人阅读全文

posted @ 2013-04-26 10:50 94julia 阅读(748) 评论(0) 推荐(0)

2013年4月19日

11个新鲜出炉的jQuery图像滑块插件

摘要：如今图像滑块已成为一种流行的Web设计元素，通过滑块，你可以在有限的页面空间中展示更多的内容，带给用户更佳的浏览体验。本文将为你带来一些非常实用的jQuery图像滑块插件。 1. Basic Slider 顾名思义，这是一个最基本的滑块，相当简单、轻量，只提供了最基本的功能。 2. BXSlider 这是一个响应式的、复杂的滑盖插件，支持富内容、触摸/滑动手势、原生硬件加速和回调API，整体来说相当不错。 3. WOWSlider 一个很酷的滑块插件，提供了各种不同的视觉效果，如旋转、模糊、翻转、爆破、飞行、百叶窗、切片、褪色、线性等，此外，该插件还拥有很多专业的模板。 4. iVie... 阅读全文

posted @ 2013-04-19 21:15 94julia 阅读(193) 评论(0) 推荐(0)

2013年4月17日

深入推荐引擎相关算法 ---- 聚类

摘要：聚类的解释说明聚类分析什么是聚类分析？聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)，它的目标是：在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。所以，在很多应用中，一个簇中的数据对象可以被作为一个整体来对待，从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为，即所谓“物以类聚，人以群分”，核心的思想也就是聚类。人们总是不断地改进下意识中的聚类模式来学习如何区分各个事物和人。同时，聚类分析已经广泛的应用在许多应用中，包括模式识别，数据分析，图像处理以及市场研究。通过聚类，人们能意识到密集和稀疏的区域，发... 阅读全文

posted @ 2013-04-17 19:49 94julia 阅读(581) 评论(0) 推荐(0)

2013年4月16日

P=NP?

摘要： “P=NP?” 通常被认为是计算机科学最重要的问题。有一个叫Clay Math的研究所，甚至悬赏 100 万美元给解决它的人。可是我今天要告诉你的是，这个问题其实是不存在的，它根本不需要解决。我并不是第一个这样认为的人。在很早的时候就有个数学家毫不客气的指出，P=NP? 是个愚蠢的问题，并且为了嘲笑它，专门在愚人节写了一篇“论文”，称自己证明了 P=NP。我身边有一些非常聪明的人，他们基本也都不把这问题当回事。如果我对他们讲这些东西，恐怕是 TOO OLD。可是我发现国内的计算机专业学生，提到这个问题总是奉为神圣，一点玩笑也开不得，所以我打算在这里科普一下。这是一个不大好解释的问... 阅读全文

posted @ 2013-04-16 20:09 94julia 阅读(1389) 评论(0) 推荐(0)

搜索引擎算法研究

摘要：摘要文章的第2部分按照时间顺序详细剖析了各种链接分析算法，对不同的算法进行了比较。第3部分对这些算法做了评价和总结，指出了存在的问题和改进方向。１．引言万维网WWW（World Wide Web）是一个巨大的，分布全球的信息服务中心，正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14]，每天增加约1百万的文档[6]，不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较，有很多新的特点，它们是分布的，异构的，无结构或者半结构的，这就对传统信息检索技术提出了新的挑战。传统的WEB搜索引擎大多数是基于关键字匹配的，返回的结果是包含查询项的文档，也有基.. 阅读全文

posted @ 2013-04-16 19:50 94julia 阅读(410) 评论(0) 推荐(0)

2013年4月15日

MapReduce提交作业常见问题

摘要： 1.从HDFS上传下载文件到第一种错误：<SPAN style="FONT-SIZE: medium">Exception inthread"main"java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.1.11:9000/usr/yujing/wordcount, expected: hdfs://master:9000 </SPAN> 这个很多人都遇到过，不管是在ubuntu还是windows系统中，在连接集群的时候，不能直接使用hdfs://192.168 阅读全文

posted @ 2013-04-15 21:48 94julia 阅读(463) 评论(0) 推荐(0)

Hadoop源代码分析（七）

摘要：聊完了Client聊Server，按惯例，先把类图贴出来。需要注意的是，这里的Server类是个抽象类，唯一抽象的地方，就是Java代码1 public abstract Writable call(Writable param, long receiveTime) throws IOException; 这表明，Server提供了一个架子，Server的具体功能，需要具体类来完成。而具体类，当然就是实现call方法。我们先来分析Server.Call，和Client.Call类似，Server.Call包含了一次请求，其中，id和param的含义和Client.Call是一致的。不同点在后. 阅读全文

posted @ 2013-04-15 20:48 94julia 阅读(146) 评论(0) 推荐(0)

2013年4月4日

SVM入门（九）松弛变量（续）

摘要：接下来要说的东西其实不是松弛变量本身，但由于是为了使用松弛变量才引入的，因此放在这里也算合适，那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题：注意其中C的位置，也可以回想一下C所起的作用（表征你有多么重视离群点，C越大越重视，越不想丢掉它们）。这个式子是以前做SVM的人写的，大家也就这么用，但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子，我们完全可以给每一个离群点都使用不同的C，这时就意味着你对每个样本的重视程度都不一样，有些样本丢了也就丢了，错了也就错了，这些就给一个比较小的C；而有些样本很重要，决不能分类错误（比如中央下达的文件啥的，笑），就给一个很大的C。当然实际使用阅读全文

posted @ 2013-04-04 21:14 94julia 阅读(236) 评论(0) 推荐(0)

SVM入门（八）松弛变量

摘要：现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：圆形和方形的点各有成千上万个（毕竟，这就是我们训练集中文档的数量嘛，当然很大了）。现在想象我们有另一个训练集，只比原先这个训练集多了一篇文章，映射到高维空间以后（当然，也使用了相同的核函数），也就多了一个样本点，但是这个样本的位置是这样的：就是图中黄色那个点，它是方形的，因而它是负类的一个样本，这单独的一个样本，使得原本线性可分的问题变成了线性不可分的。这样类似的问题（仅有少数点线性不可分）叫做“近似线性可分”的问题。以我们人类的常识来判断，说有一万个点都符合某种规律（因而线性可分），有一个点不阅读全文

posted @ 2013-04-04 21:11 94julia 阅读(723) 评论(1) 推荐(0)

SVM入门（七）为何需要核函数

摘要：生存？还是毁灭？——哈姆雷特可分？还是不可分？——支持向量机之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？有！其思想说来也简单，来用一个二维平面中的分类问题作例子，你一看就会明白。事先声明，下面这个例子是网络早就有的，我一时找不到原作者的正确信息，在此借用，并加进了我自己的解说而已。例子是下面这张图：我们把横轴上端点a和b之间红色部分里的所有点阅读全文

posted @ 2013-04-04 21:08 94julia 阅读(414) 评论(1) 推荐(0)

公告