代码改变世界

随笔档案-2014年03月

【转】机器学习问题方法总结

2014-03-27 16:16 by Loull, 525 阅读, 收藏, 编辑
摘要: 大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数逻辑斯谛回归(二值分类)参数估计(极大似然估计)、S型函数径向基函数网络非参数估计、正则化理论、S型函数对偶传播网络无导师的竞争学习、有导师的Widrow-Hoff学习学习向量量化网络一个输出层细胞跟几个竞争层细胞相连误差反向传播网络S型函数、梯度下降法支持向量机(二值分类)二次规化,Lagrange乘数法,对偶问题,最优化,序列最小优化,核技巧单层感知器只具有线 阅读全文

Canopy算法聚类

2014-03-24 22:52 by Loull, 6719 阅读, 收藏, 编辑
摘要: Canopy一般用在Kmeans之前的粗聚类。考虑到Kmeans在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差)。总之基于以下三种原因,选择利用Canopy聚类做为Kmeans的前奏 比较科学、也是Canopy的优点。一、canopy算法的优缺点Canopy的优点:1、Kmeans对噪声抗干扰较弱,通过Canopy对比较小的NumPoint的Cluster直接去掉 有利于抗干扰。2、Canopy选择出来的每个Canopy的centerPoint作为Kmeans比较科学。 3、只是针对每个C.. 阅读全文

ROC曲线及AUC评价指标

2014-03-24 20:51 by Loull, 1681 阅读, 收藏, 编辑
摘要: 很多时候,我们希望对一个二值分类器的性能进行评价,AUC正是这样一种用来度量分类模型好坏的一个标准。现实中样本在不同类别上的不均衡分布(class distribution imbalance problem),使得accuracy这样的传统的度量标准不能恰当的反应分类器的性能。举个例子:测试样本中有A类样本90个,B 类样本10个。若某个分类器简单的将所有样本都划分成A类,那么在这个测试样本中,它的准确率仍为90%,这显示是不合理的。为了解决上述问题,人们从医疗分析领域引入了一种新的分类模型performance评判方法——ROC分析。在介绍ROC之前,首先讨论一下混淆矩阵(Confusio 阅读全文

评估指标:准确率(Precision)、召回率(Recall)以及F值(F-Measure)

2014-03-24 20:18 by Loull, 9427 阅读, 收藏, 编辑
摘要: 为了能够更好的评价IR系统的性能,IR有一套完整的评价体系,通过评价体系可以了解不同信息系统的优劣,不同检索模型的特点,不同因素对信息检索的影响,从而对信息检索进一步优化。由于IR的目标是在较短时间内返回较全面和准确的信息,所以信息检索的评价指标通常从三个方面考虑:效率、效果和其他如数据规模。下面简单介绍几种常用的信息检索评价指标:1、准确率与召回率(Precision & Recall) 精度和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所 阅读全文

Java堆

2014-03-17 14:09 by Loull, 306 阅读, 收藏, 编辑
摘要: 1. Java堆的内存是由操作系统分配给JVM的内存部分。2. Java的对象是在堆中创建3. Java堆空间为了垃圾回收分为三个区域或代,叫做新代,年老代和永久代。在Hotspot JVM中永久代在full gc时被垃圾回收。4. 您可以使用JVM命令行选项-XMS,-Xmx和-Xmn为增加或改变... 阅读全文

"淘宝推荐系统简介"分享总结

2014-03-12 18:26 by Loull, 1901 阅读, 收藏, 编辑
摘要: 概述:此分享是关于淘宝推荐系统简介1.推荐引擎就是:如何找到用户感兴趣的东西和以什么形式告诉用户;2.推荐引擎的作用:提高用户忠诚度,提高成交转化率和提高网站交叉销售能力;3.推荐系统核心:产品,系统和算法;4.推荐系统产品形式:邮件营销,群体信息披露,趋势引导,评论、资讯推荐和相关商品、店铺、达人推荐;5.推荐系统系统组成:数据,算法,消息系统,Search engine,NoSQL,分布式计算和效果评测;6.算法包括离线: 用户类目偏好、用户购买力分析、关联性分析和在线:排序、过滤、增量计算7.分布式计算包括:大规模数据统计,运算和大数据集合的ETL;8.效果评测衡量指标:CTR GMV. 阅读全文

推荐系统相关资源汇总,推荐算法、性能比较

2014-03-12 17:11 by Loull, 901 阅读, 收藏, 编辑
摘要: 为了更好的学习推荐系统,本博文将个人知道的关于推荐系统的相关资源整理汇总,拿出来与大家分享。本博文每月更新一次,长期维护,如果你有好的关于推荐系统的资源,请email我,放到这里与大家分享。主页GroupLens:http://www.grouplens.orgGroupLens项目官方主页John Riedl:http://www-users.cs.umn.edu/~riedl/Grouplens领导者Greg Linden—推荐系统领域最有影响力的博客;谷文栋:http://www.guwendong.comResysChina 发起人;Xlvector:http://xlvector.n 阅读全文

混合推荐技术总结

2014-03-12 17:09 by Loull, 2605 阅读, 收藏, 编辑
摘要: 完全转载自:阿俊的博客混合推荐系统是推荐系统的另一个研究热点,它是指将多种推荐技术进行混合相互弥补缺点,从而可以获得更好的推荐效果。最常见的是将协同过滤技术和其他技术相结合,克服cold start的问题。(1)加权型就是将多种推荐技术的计算结果加权混合产生推荐。最简单的方式是线性混合,首先将协同过滤的推荐结果和基于内容的推荐结果赋予相同的权重值,然后比较用户对项的评价与系统的预测是否相符,然后调整权重值。加权型混合方式的特点是整个系统性能都直接与推荐过程相关,这样一来就很容易在这之后斤西瓜信任分配和调整相应的混合模型,不过这种技术有一个假设的前提是对于整个空间中所有可能的项,使用不同技术的相 阅读全文

推荐系统算法总结

2014-03-12 17:08 by Loull, 1374 阅读, 收藏, 编辑
摘要: 完全转载自:阿俊的博客最近看推荐系统方面的东西也有段日子了,有书,博客,唯独没有看论文。总感觉论文对于工业界来说用处真的不如学校做课题、论文那么大,只要知道某个算法好不好用以及怎么用就可以了,也不必知道太多的细节和数学推导。但根据一个好的算法,产品部门可以设计出很多很酷的产品,让用户倍感web应用的人性化。1、Item based collective filtering这个算法是cf中的一种,也是当今很多大型网站都在采用的核心算法之一。对于商城网站(以Amazon为代表,当然也包括京东那种具有搞笑特色的推荐系统在内),影视类推荐,图书类推荐,音乐类推荐系统来说,item的增长速度远不如use 阅读全文

推荐系统漫谈

2014-03-12 17:06 by Loull, 501 阅读, 收藏, 编辑
摘要: 推荐系统这个东西其实在我们的生活中无处不在,比如我早上买包子的时候,老板就经常问我要不要来杯豆浆,这就是一种简单的推荐。随着互联网的发展,把线下的这种模式搬到线上成了大势所趋,它大大扩展了推荐系统的应用:亚马逊的商品推荐,Facebook的好友推荐,Digg的文章推荐,豆瓣的豆瓣猜,Last.fm和豆瓣FM的音乐推荐,Gmail里的广告......在如今互联网信息过载的情况下,信息消费者想方便地找到自己感兴趣的内容,信息生产者则想将自己的内容推送到最合适的目标用户那儿。而推荐系统正是要充当这两者的中介,一箭双雕解决这两个难题。推荐系统的评判标准首先我们得明确什么是好的推荐系统。可以通过如下几个 阅读全文

编写简单的Mapreduce程序并部署在Hadoop2.2.0上运行

2014-03-11 11:54 by Loull, 1016 阅读, 收藏, 编辑
摘要: 今天主要来说说怎么在Hadoop2.2.0分布式上面运行写好的 Mapreduce 程序。可以在eclipse写好程序,export或用fatjar打包成jar文件。先给出这个程序所依赖的Maven包: 4.0.0 Temperature Temperature 0.0.1-SNAPSHOT src maven-compiler-plugin 3.1 1.7 1.7 org.apache.hadoop hado... 阅读全文

Eclipse jar打包

2014-03-11 10:27 by Loull, 671 阅读, 收藏, 编辑
摘要: 方案一:用Eclipse自带的Export功能步骤1:准备主清单文件 “MANIFEST.MF”,由于是打包引用了第三方jar包的Java项目,故需要自定义配置文件MANIFEST.MF,在该项目下建立文件MANIFEST.MF,内容如下:Manifest-Version: 1.0Class-Pat... 阅读全文

Hadoop2.2.0 第一步完成MapReduce wordcount计算文本数量

2014-03-10 21:23 by Loull, 514 阅读, 收藏, 编辑
摘要: 1.完成Hadoop2.2.0单机版环境搭建之后需要利用一个例子程序来检验hadoop2 的mapreduce的功能//启动hdfs和yarnsbin/start-dfs.shsbin/start-yarn.sh2.首先现在一个文件夹里面建立两个文件file01.txt file02.txt里面加入如下内容,具体方法会linux的都会,我就默认你具有了。file01.txtkongxianghekongyctcHello Worldfile02.txt112222kongHelloyctc3. 将这两个文件放入hadoop的HDFS中,HDFS(Hadoop Distributed File 阅读全文

在Ubuntu 64位OS上运行hadoop2.2.0[重新编译hadoop]

2014-03-09 22:35 by Loull, 425 阅读, 收藏, 编辑
摘要: 最近在学习搭建Hadoop, 我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,结果运行时发现提示 “libhadoop.so.1.0.0 which might have disabled stack guard” 的警告。 Google了一下发现是因为 hadoop 2.2.0提供的是libhadoop.so库是32位的,而我们的机器是64位。 解决的办法就是重新在64位的机器上编译hadoop。 编译环境OS: Ubuntu 12.04 64-bithadoop version: 2.2.0Java: Jdk1.7.0_45** 阅读全文

mapreduce小结

2014-03-05 16:34 by Loull, 357 阅读, 收藏, 编辑
摘要: (不断更新) MapReduce架构是一种分布式编程架构,它本质上是将任务划分,然后归并。它是以数据为中心的编程架构,相比与分布式计算和并行计算等,它更看重的是吞吐率。它处理的数据是PB级的数据,它并不是新技术,而是一个总结。在数据存储和处理上,它曾经被质疑,被认为是数据库技术的一个倒退,数据库的3个经验:1.结构描述是好的2.将结构从程序中分离是好的3.高阶的访问语言是好的 它一个都不具备,MR编程者需要用到c等低阶语言来处理低阶数据的问题。MR不具备数据斜交的问题,比如数据库中多表查询的能力。 它的优势应该在于它的容错能力和可扩展性。它的优秀的扩展能力是使它的地位不断攀高的主要因素... 阅读全文

理解MapReduce

2014-03-05 16:23 by Loull, 388 阅读, 收藏, 编辑
摘要: 理解MapReduceHadoop的MapReduce过程具有如下形式: 1) map: (K1, V1) => list(K2, V2) 2) reduce: (K2, list(V2)) => list(K3, V3)我用一个简单的例子说明它表示的含义:假设待分析的数据文件是一个用户名和密码的表,即"用户名,密码"格式:========= input.dat=========zhang,123456wang,qazxswliu,123456meng,xxx123hunan,qazxswchin,qazxswfeifei,1008xyz... ...===== 阅读全文
点击右上角即可分享
微信分享提示