摘要: 1 数据挖掘的定义:数据挖掘是数据“模型”的发现过程。 统计学家认为数据挖掘就是统计模型的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。2 模型:建模方法可以描述为下列两种做法之一:(1)对数据进行简洁的近似汇总描述;——数据汇总(2)从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。——特征提取3 数据汇总(1)PageRank:一种Web结构上的随机游走者在任意给定时刻处于该页的概率。PageRank的一个非常好的特性就是它能够很好地反映网页的重要性,即典型用户在搜索时期望返回某个页面的程度。(2)聚类:数据被看成是多维空间下的点,空间中相互临近的点将被赋予相同的类别。4 阅读全文
posted @ 2013-05-31 21:20 suzhou 阅读(338) 评论(0) 推荐(0) 编辑
摘要: 1 正则表达式1 最基础:要找一个数字,它可能有一个负号在前面,那么就写上一个负号加上一个问号: -?在JAVA中,\\的意思是“我要插入一个正则表达式的反斜线,表示其后的字符具有特殊的意义”,所以要描述一个整数,正则表达式应该是: \\d。同理,要插入一个普通的反斜线,则应该是:\\\\。要表示“一个或多个之前的表达式”,应该使用:+综上,要表示“可能有一个负号,后面跟着一位或多位数字”,可以这样: -?\\d+.使用正则表达式的最简单途径——String类的内建功能:匹配:“-1234”.matches("-?\\d+");切分:split()方法,将字符串从正则表达式 阅读全文
posted @ 2013-05-31 19:17 suzhou 阅读(987) 评论(0) 推荐(0) 编辑
摘要: 1 初始化初始化的一些基本知识:1 在类里定义一个对象引用时,如果不将其初始化,此引用就会获得一个特殊值null。2 在定义类成员的地方为变量赋值(C++中不允许这么做)。3 编译器会对“向前引用”发出警告4 无法阻止自动初始化的进行,它将在构造器被调用之前发生。public class Counter{ int i; Counter() { i = 7; } //......}i首先会被置0,然后变成7。5 在类的内部,变量定义的先后顺序决定了初始化的顺序。即使变量定义散布于方法定义之间,它们仍旧会在任何方法(包括构造器)被调用之前得到初始化。6 静态初始化只有在必要时刻才... 阅读全文
posted @ 2013-05-31 13:41 suzhou 阅读(183) 评论(0) 推荐(0) 编辑