摘要: 最近看了一本书,名叫《谁排第一》,讲的是关于评分排名的一些算法,主要应用领域是在对对象的排名上(体育队伍,网页,政治候选人等等)。网上相关的中文资料较少,搜索一些关键词,诸如梅西法,科利法,基纳法,搜不出与之相关的东西来。google上与之相关的英文资料有许多,特在此记录一下读书心得,给大家分享一下Rating以及Ranking算法的魅力。1. 阿罗的不可能性定理说到排名,就不得不说到投票。目前最... 阅读全文
posted @ 2016-07-24 11:36 ericxk 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 预备知识:前向神经网络和BP训练算法。cnn目前主要应用在图像领域,它的网络结构相对于普通的神经网络来说,有了卷积层以及参数共享机制使得参数数量大大减少。 1. CNN结构先来个图吧!1.1 数据输入层DATA上图没画出来,这个是放在最前做的,毕竟是数据输入层嘛!一般数据输入层需要可以进行以下操作:去均值(cnn只做这个,把train data各个维度中心化到0,注意test data的处理方式)... 阅读全文
posted @ 2016-07-24 11:17 ericxk 阅读(770) 评论(0) 推荐(0) 编辑
摘要: 记得2015年在mac系统上安装过一次caffe,非常顺利,但是最近群里许多同学反映mac安装caffe出现了各种问题,同时我也在帮助别人安装caffe的时候也遇到了一些坑,不再像以前这么顺利了。估计与操作系统,caffe升级有关。今晚我重新装了一遍caffe,记录下了整个安装过程,希望对各位同学有用。mac os 版本:10.11.4xcode 版本: 7.21. 安装Homebrewhomeb... 阅读全文
posted @ 2016-07-24 11:15 ericxk 阅读(1425) 评论(0) 推荐(0) 编辑
摘要: tips:注意下文中上下标的关系,当同时上下标出现,下标表示第几个样本,上标表示第几维特征。具体情况,具体分析。1 线性模型线性模型是机器学习模型中最基本的模型。许多强大的非线性模型都是在线性模型之上构建的。给定一个有d个属性的样本x,\(x=(x^1,x^2,x^3,...,x^d)\),其中\(x^i\)为x在第i个属性上的取值,则线性模型就是通过将各个属性线性组合在一起的达到预测目的的函数。... 阅读全文
posted @ 2016-07-24 11:15 ericxk 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 最大熵模型熵的定义联合熵、相对熵、条件熵、互信息最大熵模型Maxent在NLP中应用Maxent与MLE关系1. 一个问题谈一个问题:扔骰子N次结果平均是5.5,问6个面概率。可以凸优化,可以极大似然估计。minimize: \(S\left( p \right)=- \sum_i {p_i \ln(p_i)} \)subject to: \(\sum_i{p_i}=1\)\(\sum_{i}{i... 阅读全文
posted @ 2016-07-24 11:15 ericxk 阅读(249) 评论(0) 推荐(0) 编辑
摘要: Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难。目前抽工作之余,断断续续弄了点,成绩为0.79426。在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下。1. 分析数据因为数据量比较小,train有800多条数据,test有400多条数据,因此这里用了execl的数据透视表分析。同时python提供pa... 阅读全文
posted @ 2016-07-24 11:14 ericxk 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 1 感知机1.1 感知机定义感知机是一个二分类的线性分类模型,其生成一个分离超平面将实例的特征向量,输出为+1,-1。导入基于误分类的损失函数,利用梯度下降法对损失函数极小化,从而求得此超平面,该算法有原始形式和对偶形式。定义:假设输入空间是\(\chi \subseteq \mathbb{R}^n\),输出空间是{+1,-1},输入\(x \in \chi \)表示实例的特征向量,对应于输入空间... 阅读全文
posted @ 2016-07-24 11:14 ericxk 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 1 excel数据透视表这里主要是讲述了一下插入里面的数据透视表常用功能,数据透视表十分方便,比直接筛选还要简单,看数据很直观,这里大力推荐。2 python&pandas这里主要是讲述了pandas的一些基本用法,直接上代码吧。2.1 pandas dataframe文章所述pandas和R语言一样有dataframe,对于分析处理数据十分方便。import pandas as pdimport... 阅读全文
posted @ 2016-07-24 11:13 ericxk 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 1.谱聚类概念1.1基本概念实对称阵的特征值是实数实对称阵不同特征值对应的特征向量正交谱:方阵作为线性算子,它的所有特征值的全体统称方阵的谱。谱半径:方阵的谱半径为最大的特征值,矩阵A的谱半径为\(\left( A^T A \right)\)的最大特征值谱聚类:一般来说,是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据聚类的目的。1.2相似度图G1.2.... 阅读全文
posted @ 2016-07-24 10:59 ericxk 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 1. 密度聚类思想密度聚类思想是,只要一个区域中的点的密度大于某个阈值,就把他加到与之相近的聚类中去。优点:能对任意形状聚类,对噪声不敏感。缺点:计算密度单元的复杂度大,可以提前建立空间索引降低计算量。2. DBSCAN算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)将簇定义为密度相连的点的最大集合,能够把具... 阅读全文
posted @ 2016-07-24 10:58 ericxk 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 1.聚类的思想:将一个有N个对象的数据集,构造成k(k0: freq -= 1 ##针对每个点划分类别 for i in xrange(dataNum): mindist = inf for j in xrange(k): dist = distEclud(centers[j],da... 阅读全文
posted @ 2016-07-24 10:57 ericxk 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 核心就是贝叶斯公式:p(x|y) = p(x,y)/p(y) = p(y|x)p(x)/p(y)**分类原则:在给定的条件下,在哪种分类的概率大,就是哪种分类。*****举个小例子:两个信封:A1.2个红球,2个黑球,A2.1个红球,2个黑球。(1)已知从一个信封里面摸到一个红球,则这个信封是A1信封的概率。(2)已知从一个信封里面摸到一个黑球,则这个信封是A1信封的概率。P(R)红球的概率,P(... 阅读全文
posted @ 2016-07-24 10:53 ericxk 阅读(118) 评论(0) 推荐(0) 编辑