潘的博客 - 博客园

2012年12月7日

Python matplotlib简介 Pyplot教程

摘要：本文主要翻译自matplotlib官网 matplotlib.pyplot是一些命令行风格函数的集合，使matplotlib以类似于MATLAB的方式工作。每个pyplot函数对一幅图片(figure)做一些改动：比如创建新图片，在图片创建一个新的作图区域(plotting area)，在一个作图区域内画直线，给图添加标签(label)等。matplotlib.pyplot是有状态的，亦即它会保存当前图片和作图区域的状态，新的作图函数会作用在当前图片的状态基础之上。import matplotlib.pyplot as pltplt.plot([1,2,3,4])plt.ylabel(' 阅读全文

posted @ 2012-12-07 22:09 潘的博客阅读(31722) 评论(1) 推荐(2)

2012年11月27日

在Python中使用Weka

摘要： Weka是用Java编写的数据挖掘工具，如果要在Python中调用Weka，需要用到Jython。Jython是100%用Java实现的Python，可以无缝的嵌入到Java平台当中。前期准备： 1. 安装JDK,Jython 2. 将Jython的执行路径加入到$PATH，将Weka.jar的路径加入到$CLASSPATH中下面我们用Jython调用Weka的朴素贝叶斯分类器来对数据进行分类： 1 #!/usr/bin/python 2 #coding=UTF-8 3 import sys 4 import java.io.FileReader as FileReader 5 ... 阅读全文

posted @ 2012-11-27 12:06 潘的博客阅读(7615) 评论(1) 推荐(1)

2012年11月23日

Mac OS Hadoop Mahout安装

摘要： Mac OS Hadoop Mahout安装1. 下载Hadoop，Mahout：可以直接从labs.renren.com/apache-mirror/hadoop和labs.renren.com/apache-mirror/mahout下载2. 配置Hadoop配置文件： (1) core-site.xml:<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-sp 阅读全文

posted @ 2012-11-23 18:31 潘的博客阅读(1151) 评论(0) 推荐(0)

2012年11月13日

基于Elo Rating System的三国演义武将排名

摘要： Elo Rating System是国际象棋用来给选手打分的一个算法，详情见Elo Rating System。我们可以用这个算法对三国中的武将进行打分，然后排名。数据来源为三国武将对战记录，摘录其中几条记录如下：张飞VS邓茂零合，飞一枪刺死茂。关羽VS程远志零合，羽一刀挥远志为两段。张飞VS高升不数合，飞刺高升坠马。孙坚VS赵弘坚从城上飞身取弘，手夺弘槊，直刺下马。华雄VS鲍忠零合，忠欲退，被雄手起刀落，斩于马下。程普VS胡轸不数合，程普刺中胡轸咽喉，死于马下，孙坚VS华雄斗不到数合，寨后李肃军到……坚拨回马走……背后华雄追坚，坚勒回马又战十余合。坚败华雄V.. 阅读全文

posted @ 2012-11-13 18:56 潘的博客阅读(622) 评论(0) 推荐(0)

2012年11月9日

Elo Rating System

摘要：很多游戏都需要用到打分系统，比如11平台的天梯，魔兽世界的竞技场，还有国际象棋。Elo Rating System就是一个用来计算二人(或两个团队)竞技游戏中各个选手(团队)等级的算法。该算法由匈牙利裔美籍物理学家Arpad Elo发明。在打分系统中，每个选手都有一个数字，代表其等级。数字越大的选手等级越高，而分数是由和其他选手竞技得来的，赢得比赛就加分，输掉比赛则扣分。赢得或输掉的分数取决于对战双方的等级差距。比如，如果一个选手A赢了一个比他等级高很多的选手B，则A的等级就会提高跟多，B的等级则会降低很多，反之，如果选手A赢了一个等级远低于自己的选手B，则A的等级不会上升很多，而B的等级. 阅读全文

posted @ 2012-11-09 22:23 潘的博客阅读(1420) 评论(0) 推荐(0)

2012年11月5日

模糊关联规则挖掘

摘要：模糊关联规则挖掘关联规则挖掘是数据挖掘最基本和最常用的算法之一，Apriori算法基本上是每个学习数据挖掘的同学掌握的第一个算法。但是，一般的关联规则挖掘算法无法处理涉及连续值的记录。虽然某些算法把连续值通过划分区间的方法离散化，但是这种硬边界划分的方法效果并不是很好，一些在边缘附近的数据只能属于一个划分，而这与事实不符。比如，年龄的一个划分可以是青年，但如果我们把青年的区间定义为[20，30]，则19岁的人就被排除在青年的范围之外了，显然这不是很合适。针对这种问题，我们可以基于模糊集把区间划分成多个模糊集，然后求得某个元素属于某个模糊集的概率（根据模糊隶属函数），这样的话每个元素都可以. 阅读全文

posted @ 2012-11-05 20:16 潘的博客阅读(2937) 评论(0) 推荐(0)

2012年11月4日

面向对象基本原则-转载

摘要：面向对象基本原则面向对象设计的原则是面向对象思想的提炼，它比面向对象思想的核心要素更具可操作性，但与设计模式相比，却又更加的抽象，是设计精神要义的抽象概括。形象地将，面向对象思想像法理的精神，设计原则则相对于基本宪法，而设计模式就好比各式各样的具体法律条文了。面向对象设计原则有6个：开放封闭原则，单一职责原则，依赖倒置原则，Liskov替换原则，迪米特法则和接口隔离原则或合成/聚合复用原则（不同资料略有不同，这里对7个都做了整理）。1单一职责原则(SingleResponsibilityPrincipleSRP)Thereshouldneverbemorethanonereasonforac 阅读全文

posted @ 2012-11-04 19:27 潘的博客阅读(332) 评论(0) 推荐(0)

2012年11月1日

FCM聚类算法简介-转载

摘要： FCM聚类算法介绍 FCM算法是一种基于划分的聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。1模糊集基本知识首先说明隶属度函数的概念。隶属度函数是表示一个对象x隶属于集合A的程度的函数，通常记做μA(x)，其自变量范围是所有可能属于集合A的对象（即集合A所在空间中的所有点），取值范围是[0,1]，即0<=μA(x)<=1。μA(x)=1表示x完全隶属于集合A，相当于传统集合概阅读全文

posted @ 2012-11-01 11:44 潘的博客阅读(4785) 评论(0) 推荐(0)

2012年10月28日

Shell命令学习笔记

摘要： Shell命令学习笔记 1. tr 替换字符简单示例： tr 'A' 'a' < file.txt 把每一个A字符替换为a字符。tr命令只能用于单个字符的替换，如果写成： tr 'ABC' 'abc' < file.txt 则表示分别把A，B，C字符替换为a,b,c，而不是把字符串ABC替换为abc，字符串的替换需要用到sed命令，稍候会有介绍。 2. grep 字符串查找简单示例：grep world file.txt 在输入文件或这标准输入中查找含有匹配字符串（此处是world）的行，并显示改行。用grep 阅读全文

posted @ 2012-10-28 14:34 潘的博客阅读(415) 评论(0) 推荐(0)