摘要:
Redis的php客户端库非常之多, Redis推荐客户端链接是:http://redis.io/clients 推荐用phpredis,下载地址:https://github.com/nicolasff/phpredis/ php5.4 连接使用redis , 1、先下载 phpredis.dll 阅读全文
随笔分类 - 数据处理(含data mining)
SQLite数据库安装与使用
2014-02-12 17:03 by youxin, 2805 阅读, 收藏, 编辑
摘要:
SQLite是遵守ACID的关系数据库管理系统,它包含在一个相对小的C库中。它是D.RichardHipp创建的公有领域项目。不像常见的客户端/服务器结构范例,SQLite引擎不是个程序与之通信的独立进程,而是连接到程序中成为它的一个主要部分。所以主要的通信协议是在编程语言内的直接API调用。这在消耗总量、延迟时间和整体简单性上有积极的作用。整个数据库(定义、表、索引和数据本身)都在宿主主机上存储在一个单一的文件中。它的简单的设计是通过在开始一个事务的时候锁定整个数据文件而完成的。Windows 上如何安装Sqlite 1.获得命令行程序 SQLite命令行程序(CLP)是开始使用SQLi.. 阅读全文
数据挖掘模拟退火算法(《集体智慧编程》第5章优化)
2013-11-12 16:03 by youxin, 600 阅读, 收藏, 编辑
摘要:
一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如图1所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为在A点无论向那个方向小幅度移动都不能得到更优的解。二. 模拟退火(SA,Simulated Annealing退火)思想 爬山法是完完全全的贪心法,每次都鼠目寸光的选择一个当前最优解,因此只能搜索到局部的最优值。模拟退火其实也是一种贪心算法 阅读全文
转:MySql的commit和rollback
2013-07-17 15:53 by youxin, 3032 阅读, 收藏, 编辑
摘要:
从功能上划分,SQL 语言可以分为DDL,DML和DCL三大类。1. DDL(Data Definition Language) 数据定义语言,用于定义和管理 SQL 数据库中的所有对象的语言 ; CREATE---创建表 ALTER---修改表 DROP---删除表2. DML(Data Manipulation Language) 数据操纵语言,SQL中处理数据等操作统称为数据操纵语言 ; INSERT---数据的插入 DELETE---数据的删除 UPDATE---数据的修改 SELECT---数据的查询3. DCL(Data Control Language) 数据控制语言,用来授予或 阅读全文
转:数据库模式
2013-05-30 16:59 by youxin, 293 阅读, 收藏, 编辑
摘要:
三级模式结构:外模式、模式和内模式 一、模式(Schema) 定义:也称逻辑模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。理解:① 一个数据库只有一个模式;② 是数据库数据在逻辑级上的视图;③ 数据库模式以某一种数据模型为基础;④ 定义模式时不仅要定义数据的逻辑结构(如数据记录由哪些数据项构成,数据项的名字、类型、取值范围等),而且要定义与数据有关的安全性、完整性要求,定义这些数据之间的联系。二、外模式(External Schema) 定义:也称子模式(Subschema)或用户模式,是数据库用户(包括应用程序员和最终用户)能够看见和使用的局部数据的逻辑... 阅读全文
皮尔逊积矩相关系数
2013-05-04 21:35 by youxin, 3344 阅读, 收藏, 编辑
摘要:
在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作PPMCC或PCCs[1], 文章中常用r或Pearson's r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。[2][3]这个相关系数也称作“皮尔森相关系数r”。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:以上方程定义了总 阅读全文
统计学中的自由度
2013-05-04 21:17 by youxin, 2481 阅读, 收藏, 编辑
摘要:
統計學上的自由度(英语:degree of freedom, df),是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,称为该统计量的自由度。例1:估计总体的平均数()时,由于样本中的个数都是相互独立的,任一個尚未抽出的數都不受已抽出任何数值的影響,所以自由度为。例2:估计总体的方差()时所使用的統計量是樣本的方差,而必須用到樣本平均數來計算。在抽樣完成後已確定,所以大小為的樣本中只要个数确定了,第個數就只有一個能使樣本符合的數值。也就是說,樣本中只有個數可以自由變化,只要確定了這個數,方差也就确定了。这裡,平均數就相当于一个限制条件,由于加了这个限制条件,樣本方差的 阅读全文
processing递归显示树的内容
2013-04-17 11:57 by youxin, 968 阅读, 收藏, 编辑
摘要:
下面的代码递归显示某一文件的内容,考虑了非常多的因素,代码比较细致。Node类:Node作为树结构中的基本元素,每个元素或者是文件或者是目录。import java.io.File;class Node{ File file; Node[] children;//子节点 int childCount; Node(File file){ this.file=file; if(file.isDirectory()) { String[] contents=file.list(); if(contents!=null)//有些文件不能访问,file... 阅读全文
k-medoids
2013-04-16 20:38 by youxin, 1002 阅读, 收藏, 编辑
摘要:
Thek-medoids algorithmis aclusteringalgorithmrelated to thek-meansalgorithm and the medoidshift algorithm. Both thek-means andk-medoids algorithms are partitional (breaking the dataset up into groups) and both attempt to minimize the distance between points labeled to be in a cluster and a point des 阅读全文
Vector quantization向量化编码
2013-04-16 20:18 by youxin, 762 阅读, 收藏, 编辑
摘要:
Vector Quantization 这个名字听起来有些玄乎,其实它本身并没有这么高深。大家都知道,模拟信号是连续的值,而计算机只能处理离散的数字信号,在将模拟信号转换为数字信号的时候,我们可以用区间内的某一个值去代替着一个区间,比如,[0, 1) 上的所有值变为 0 ,[1, 2) 上的所有值变成 1 ,如此类推。其这就是一个 VQ 的过程。一个比较正式一点的定义是:VQ 是将一个向量空间中的点用其中的一个有限子集来进行编码的过程。一个典型的例子就是图像的编码。最简单的情况,考虑一个灰度图片,0 为黑色,1 为白色,每个像素的值为 [0, 1] 上的一个实数。现在要把它编码为 256 阶的 阅读全文
k均值算法
2013-04-16 19:55 by youxin, 943 阅读, 收藏, 编辑
摘要:
K均值算法是聚类分析中较常用的一种算法,基本思想如下:首先,随机地选择k个对象,每个对象代表一个簇的初始值或中心,对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最相近的簇,然后计算每个簇的新均值。这个过程一直重复,直到准则函数收敛。关于距离,有几种不同的距离公式:求点群中心的算法一般来说,求点群中心点的算法你可以很简的使用各个点的X/Y坐标的平均值。不过,我这里想告诉大家另三个求中心点的的公式:1)Minkowski Distance 公式 ——λ 可以随意取值,可以是负数,也可以是正数,或是无穷大。2)Euclidean Distance 公式—— 也就是第一个公式λ=2 的情况3) 阅读全文
processing ball gravity simulation
2013-04-02 20:41 by youxin, 356 阅读, 收藏, 编辑
摘要:
模拟方案1:void setup() { size(500, 500); smooth();} float yPos=25;float g=.15;float acceleration=0; void draw() { background(0); makeball(); yPos += acceleration; //ball drop or bounce back acceleration += g; //accelerate speed add g //when bounce back, -acceleration+g = slower speed if (yPos>... 阅读全文
processing bounce ball
2013-04-02 20:28 by youxin, 346 阅读, 收藏, 编辑
摘要:
When the shape hits the edge of the window, it reverses its direction.int rad = 60; // Width of the shapefloat xpos, ypos; // Starting position of shape float xspeed = 2.8; // Speed of the shapefloat yspeed = 2.2; // Speed of the shapeint xdirection = 1; // Left or Rightint ydirectio... 阅读全文
转:和机器学习和计算机视觉相关的数学
2013-03-26 18:59 by youxin, 381 阅读, 收藏, 编辑
摘要:
1. 线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是Introduction to Linear Algebra (3rd Ed.)by Gilbert Strang.这本书是MIT的线性代数课使用的教材,也是被很多其它大学选用的经典教材。它的难度适中,讲解清晰,重要的是对许多核心的概念讨论得比较透彻。我个人觉得,学习线性代数,最重要的不是去熟练矩阵运算和解方程的方法—— 阅读全文
转:数据挖掘资料收集
2013-03-26 18:56 by youxin, 271 阅读, 收藏, 编辑
摘要:
做数据挖掘也有些年头了,写这篇文一方面是让我写篇文,朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。#########################################更新部分#########################################Q&A:Q:学习,最近在看集体智慧编程,楼主可否推荐下数学基础的书?A:我数学本身也不好 自己也在偷偷补 因为看的不多也不能给出个提纲式的建议 只能给您列下我近期看过和在看的觉得不错的书 您看做参考吧1.矩阵方面 Kaare Brandt Petersen的《Th 阅读全文
weka入门
2013-03-26 18:26 by youxin, 425 阅读, 收藏, 编辑
摘要:
概述:WEKA是由新西兰怀卡托大学开发的开源项目。WEKA是由JAVA编写的,并且限制在GNU通用公众证书的条件下发布,可以运行在所有的操作系统中。WEKA工作平台包含能处理所有标准数据挖掘问题的方法:回归、分类、聚类、关联规则挖掘以及属性选择。作为数据挖掘爱好者自然要对WEKA的源代码进行分析并以及改进,努力写出自己的数据挖掘算法。下面着重介绍一下如何利用WEKA编写新的数据挖掘算法:注意:WEKA的版本有两个版本:稳定版(STABLE)和开发版(DEVELOP),不同WEKA版本与不同JDK的版本匹配,稳定版WEKA3-4的与JDK1.4.2匹配,而开发版WEKA3-5与JDK1.5匹配, 阅读全文
processing程序setup函数和draw函数
2012-12-18 21:37 by youxin, 2103 阅读, 收藏, 编辑
摘要:
setup()函数用户初始化,只会运行一次,draw函数会重复运行默认的frameRate是60,即每秒60个画面,通过frameRate(x)函数可以改变值。void setup(){ size(200,200); background(255,0,0); }void draw(){ stroke(0,255,0); ellipse(50,100,50,50); line(100,20,mouseX,mouseY);}以上代码运行时,鼠标移动时会绘制出一个扇形的效果。当把background(255,0,0);放在draw函数里面时,就会只画出一条线,因为每次重绘都会填充背景色... 阅读全文
Processing简介
2012-12-17 20:24 by youxin, 1254 阅读, 收藏, 编辑
摘要:
Processing是一种具有革命前瞻性的新兴计算机语言,它的概念是在电子艺术的环境下介绍程序语言,并将电子艺术的概念介绍给程序设计师。她是 Java 语言的延伸,并支持许多现有的 Java 语言架构,不过在语法 (syntax) 上简易许多,并具有许多贴心及人性化的设计。Processing 可以在 Windows、MAC OS X、MAC OS 9 、Linux 等操作系统上使用。本软件目前是处于初版测试的阶段,试用版听说最近真的快要出了!以 Processing 完成的作品可在个人本机端作用,或以Java Applets 的模式外输至网络上发布。 虽然图形用户界面(GUI)早在二十年前成 阅读全文