2012年12月7日

Python matplotlib简介 Pyplot教程

摘要: 本文主要翻译自matplotlib官网 matplotlib.pyplot是一些命令行风格函数的集合,使matplotlib以类似于MATLAB的方式工作。每个pyplot函数对一幅图片(figure)做一些改动:比如创建新图片,在图片创建一个新的作图区域(plotting area),在一个作图区域内画直线,给图添加标签(label)等。matplotlib.pyplot是有状态的,亦即它会保存当前图片和作图区域的状态,新的作图函数会作用在当前图片的状态基础之上。import matplotlib.pyplot as pltplt.plot([1,2,3,4])plt.ylabel(' 阅读全文

posted @ 2012-12-07 22:09 潘的博客 阅读(31572) 评论(1) 推荐(2) 编辑

2012年11月27日

在Python中使用Weka

摘要: Weka是用Java编写的数据挖掘工具,如果要在Python中调用Weka,需要用到Jython。Jython是100%用Java实现的Python,可以无缝的嵌入到Java平台当中。 前期准备: 1. 安装JDK,Jython 2. 将Jython的执行路径加入到$PATH,将Weka.jar的路径加入到$CLASSPATH中 下面我们用Jython调用Weka的朴素贝叶斯分类器来对数据进行分类: 1 #!/usr/bin/python 2 #coding=UTF-8 3 import sys 4 import java.io.FileReader as FileReader 5 ... 阅读全文

posted @ 2012-11-27 12:06 潘的博客 阅读(7553) 评论(1) 推荐(1) 编辑

2012年11月23日

Mac OS Hadoop Mahout安装

摘要: Mac OS Hadoop Mahout安装1. 下载Hadoop,Mahout: 可以直接从labs.renren.com/apache-mirror/hadoop和labs.renren.com/apache-mirror/mahout下载2. 配置Hadoop配置文件: (1) core-site.xml:<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-sp 阅读全文

posted @ 2012-11-23 18:31 潘的博客 阅读(1142) 评论(0) 推荐(0) 编辑

2012年11月13日

基于Elo Rating System的三国演义武将排名

摘要: Elo Rating System是国际象棋用来给选手打分的一个算法,详情见Elo Rating System。 我们可以用这个算法对三国中的武将进行打分,然后排名。数据来源为三国武将对战记录,摘录其中几条记录如下:张飞VS邓茂 零合,飞一枪刺死茂。 关羽VS程远志 零合,羽一刀挥远志为两段。 张飞VS高升 不数合,飞刺高升坠马。 孙坚VS赵弘 坚从城上飞身取弘,手夺弘槊,直刺下马。 华雄VS鲍忠 零合,忠欲退,被雄手起刀落,斩于马下。 程普VS胡轸 不数合,程普刺中胡轸咽喉,死于马下, 孙坚VS华雄 斗不到数合,寨后李肃军到……坚拨回马走……背后华雄追坚,坚勒回马又战十余合。坚败 华雄V.. 阅读全文

posted @ 2012-11-13 18:56 潘的博客 阅读(562) 评论(0) 推荐(0) 编辑

2012年11月9日

Elo Rating System

摘要: 很多游戏都需要用到打分系统,比如11平台的天梯,魔兽世界的竞技场,还有国际象棋。Elo Rating System就是一个用来计算二人(或两个团队)竞技游戏中各个选手(团队)等级的算法。该算法由匈牙利裔美籍物理学家Arpad Elo发明。 在打分系统中,每个选手都有一个数字,代表其等级。数字越大的选手等级越高,而分数是由和其他选手竞技得来的,赢得比赛就加分,输掉比赛则扣分。赢得或输掉的分数取决于对战双方的等级差距。比如,如果一个选手A赢了一个比他等级高很多的选手B,则A的等级就会提高跟多,B的等级则会降低很多,反之,如果选手A赢了一个等级远低于自己的选手B,则A的等级不会上升很多,而B的等级. 阅读全文

posted @ 2012-11-09 22:23 潘的博客 阅读(1303) 评论(0) 推荐(0) 编辑

2012年11月5日

模糊关联规则挖掘

摘要: 模糊关联规则挖掘 关联规则挖掘是数据挖掘最基本和最常用的算法之一,Apriori算法基本上是每个学习数据挖掘的同学掌握的第一个算法。但是,一般的关联规则挖掘算法无法处理涉及连续值的记录。 虽然某些算法把连续值通过划分区间的方法离散化,但是这种硬边界划分的方法效果并不是很好,一些在边缘附近的数据只能属于一个划分,而这与事实不符。比如,年龄的一个划分可以是青年,但如果我们把青年的区间定义为[20,30],则19岁的人就被排除在青年的范围之外了,显然这不是很合适。针对这种问题,我们可以基于模糊集把区间划分成多个模糊集,然后求得某个元素属于某个模糊集的概率(根据模糊隶属函数),这样的话每个元素都可以. 阅读全文

posted @ 2012-11-05 20:16 潘的博客 阅读(2805) 评论(0) 推荐(0) 编辑

2012年11月4日

面向对象基本原则-转载

摘要: 面向对象基本原则 面向对象设计的原则是面向对象思想的提炼,它比面向对象思想的核心要素更具可操作性,但与设计模式相比,却又更加的抽象,是设计精神要义的抽象概括。形象地将,面向对象思想像法理的精神,设计原则则相对于基本宪法,而设计模式就好比各式各样的具体法律条文了。面向对象设计原则有6个:开放封闭原则,单一职责原则,依赖倒置原则,Liskov替换原则,迪米特法则和接口隔离原则或合成/聚合复用原则(不同资料略有不同,这里对7个都做了整理)。1单一职责原则(SingleResponsibilityPrincipleSRP)Thereshouldneverbemorethanonereasonforac 阅读全文

posted @ 2012-11-04 19:27 潘的博客 阅读(325) 评论(0) 推荐(0) 编辑

2012年11月1日

相关性分析 -pearson spearman kendall相关系数

摘要: 相关性分析 -pearson spearman kendall相关系数 先说独立与相关的关系:对于两个随机变量,独立一定不相关,不相关不一定独立。有这么一种直观的解释(不一定非常准确):独立代表两个随机变量之间没有任何关系,而相关仅仅是指二者之间没有线性关系,所以不难推出以上结论。 衡量随机变量相关性的方法主要有三种:pearson相关系数,spearman相关系数,kendall相关系数: 1. pearson相关系数,亦即皮尔逊相关系数 pearson相关系数用来衡量两个随机变量之间的相关性,计算公式为: 公式-1 其中cov(X,Y)也叫做X,Y的协方差,σX是X的标准差,μX是X... 阅读全文

posted @ 2012-11-01 16:17 潘的博客 阅读(32326) 评论(0) 推荐(1) 编辑

FCM聚类算法简介-转载

摘要: FCM聚类算法介绍 FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。1模糊集基本知识 首先说明隶属度函数的概念。隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做μA(x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的所有点),取值范围是[0,1],即0<=μA(x)<=1。μA(x)=1表示x完全隶属于集合A,相当于传统集合概 阅读全文

posted @ 2012-11-01 11:44 潘的博客 阅读(4638) 评论(0) 推荐(0) 编辑

2012年10月28日

Shell命令学习笔记

摘要: Shell命令学习笔记 1. tr 替换字符 简单示例: tr 'A' 'a' < file.txt 把每一个A字符替换为a字符。tr命令只能用于单个字符的替换,如果写成: tr 'ABC' 'abc' < file.txt 则表示分别把A,B,C字符替换为a,b,c,而不是把字符串ABC替换为abc,字符串的替换需要用到sed命令,稍候会有介绍。 2. grep 字符串查找 简单示例 :grep world file.txt 在输入文件或这标准输入中查找含有匹配字符串(此处是world)的行,并显示改行。 用grep 阅读全文

posted @ 2012-10-28 14:34 潘的博客 阅读(401) 评论(0) 推荐(0) 编辑

导航