随笔档案「2016年5月」 - ooon

计算机视觉入门 Intorduction To Computer Vision

摘要：本文将主要介绍图像分类问题，即给定一张图片，我们来给这张图片打一个标签，标签来自于预先设定的集合，比如{people,cat,dog...}等，这是CV的核心问题，图像分类在实际应用中也有许多变形，而且许多看似无关的问题（比如 object detection, segmentation）最终也可划阅读全文

posted @ 2016-05-29 22:50 ooon 阅读(966) 评论(0) 推荐(0)

支持向量机之Hinge Loss 解释

摘要：Hinge Loss 解释 SVM 求解使通过建立二次规划原始问题，引入拉格朗日乘子法，然后转换成对偶的形式去求解，这是一种理论非常充实的解法。这里换一种角度来思考，在机器学习领域，一般的做法是经验风险最小化 ERM ，即构建假设函数为输入输出间的映射，然后采用损失函数来衡量模型的优劣。求得使损失最阅读全文

posted @ 2016-05-29 16:20 ooon 阅读(7848) 评论(0) 推荐(0)

（七）7.2 应用机器学习方法的技巧，准确率，召回率与 F值

摘要：建立模型当使用机器学习的方法来解决问题时，比如垃圾邮件分类等，一般的步骤是这样的： 1）从一个简单的算法入手这样可以很快的实现这个算法，并且可以在交叉验证集上进行测试； 2）画学习曲线以决定是否更多的数据，更多的特征或者其他方式会有所帮助； 3）人工检查那些算法预测错误的例子（在交叉验证集上），看阅读全文

posted @ 2016-05-24 15:18 ooon 阅读(3945) 评论(0) 推荐(0)

（七）7.1应用机器学习中的一些技巧

摘要：本文所讲述的是怎么样去在实践中更好的应用机器学习算法，比如如下经验风险最小化问题：当求解最优的后，发现他的预测误差非常之大，接下来如何处理来使得当前的误差尽可能的小呢？这里给出以下几个选项，下面介绍的是如何在一下这些应对策略中选择正确的方法来助力以上问题。当模型的variance比较大时，可能阅读全文

posted @ 2016-05-24 12:03 ooon 阅读(691) 评论(0) 推荐(0)

（二）win7下用Intelij IDEA 远程调试spark standalone 集群

摘要：关于这个spark的环境搭建了好久，踩了一堆坑，今天环境： WIN7笔记本 spark 集群（4个虚拟机搭建的） Intelij IDEA15 scala-2.10.4 java-1.7.0 版本问题：个人选择的是hadoop2.6.0 spark1.5.0 scala2.10.4 jdk1.7 阅读全文

posted @ 2016-05-13 17:50 ooon 阅读(13455) 评论(2) 推荐(3)

梯度下降之随机梯度下降 -minibatch 与并行化方法

摘要：问题的引入：考虑一个典型的有监督机器学习问题，给定m个训练样本S={x(i),y(i)}，通过经验风险最小化来得到一组权值w，则现在对于整个训练集待优化目标函数为：其中为单个训练样本（x(i),y(i)）的损失函数，单个样本的损失表示如下：引入L2正则，即在损失函数中引入，那么最终的损失为：阅读全文

posted @ 2016-05-12 12:51 ooon 阅读(25075) 评论(0) 推荐(0)

(一) 从零开始搭建Spark Standalone集群环境搭建

摘要：本文主要讲解spark 环境的搭建主机配置 4核8线程,主频3.4G，16G内存虚拟环境： VMWare 虚拟环境系统：Ubuntu 14.10 虚拟机运行环境： jdk-1.7.0_79（64bit） hadoop-2.6.0.tar.gz scala-2.10.4.tar spark-1.5 阅读全文

posted @ 2016-05-04 22:24 ooon 阅读(12489) 评论(2) 推荐(0)

用KNN算法分类CIFAR-10图片数据

摘要：KNN分类CIFAR-10，并且做Cross Validation，CIDAR-10数据库数据如下： knn.py : 主要的试验流程 from cs231n.data_utils import load_CIFAR10 from cs231n.classifiers import KNearest 阅读全文

posted @ 2016-05-04 20:27 ooon 阅读(5368) 评论(0) 推荐(0)

05 2016 档案

公告