上一页 1 ··· 7 8 9 10 11
摘要: Java的堆是一个运行时数据区,类的(对象从中分配空间。这些对象通过new、newarray、 anewarray和multianewarray等指令建立,它们不需要程序代码来显式的释放。堆是由垃圾回收来负责的,堆的优势是可以动态地分配内存 大小,生存期也不必事先告诉编译器,因为它是在运行时动态分配... 阅读全文
posted @ 2015-05-19 16:53 ooon 阅读(444) 评论(0) 推荐(0) 编辑
摘要: Content1 引言2 维数灾难与过拟和3 怎样避免维数灾难4 总结 1 引言本文章讨论的话题是“curse of dimension”,即维数灾难,并解释在分类它的重要性,在下面的章节我会对这个概念做一个直观的解释,并清晰的描述一个由维数灾难引起的过度拟合的问题。下面不如正题,考虑我们有一堆猫和... 阅读全文
posted @ 2015-05-10 13:48 ooon 阅读(2477) 评论(1) 推荐(1) 编辑
摘要: 原文地址 http://www.cnblogs.com/tornadomeet/p/3395593.html 朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该 阅读全文
posted @ 2015-05-03 10:43 ooon 阅读(2483) 评论(1) 推荐(1) 编辑
摘要: “空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动,线性空间之中即线性变换,向量是很厉害的,只要你找到合适的基,用向量可以表示线性空间里任何一个对象线性空间中的运动,被称为线性变换。也就是说,你从线性空间中的一个点运动到任意的另外一个点,都可以通过一个线性变化来完成。那么,线性变换如何表... 阅读全文
posted @ 2015-04-28 22:14 ooon 阅读(2631) 评论(0) 推荐(0) 编辑
摘要: 众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的... 阅读全文
posted @ 2015-04-27 13:57 ooon 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 1、海量日志数据,提取出某日访问次数最多的那个IP。 思路:分而治之 + Hash 1.IP地址最多有 $2^32$ = 4G 种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的 Hash(IP)%1024 值 ,把海量IP日志分别存储到1024个小文件中 阅读全文
posted @ 2015-04-23 16:29 ooon 阅读(503) 评论(1) 推荐(0) 编辑
摘要: 新词发现主要有三个指标需要满足,分别设置三个阈值即可: 词频: 内部凝固度 外部自由度 这里先写这么点,一会再补充。 阅读全文
posted @ 2015-04-23 11:41 ooon 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 基础原理参见:http://www.cnblogs.com/c-cloud/p/3224788.html next 数组构造方法 这个很简单,我们只要循环遍历这个子串,分别看前1个字符,前2个字符,3个... i个 最后到15个。 第1个a无对称,所以对称程度0 前两个ag无对称,所以也是0 依次类 阅读全文
posted @ 2015-04-18 18:05 ooon 阅读(420) 评论(0) 推荐(0) 编辑
摘要: DecimalFormat是一个队浮点数进行格式化输出的利器,比如我们要输出一个保留一位小数的浮点数,可以键入如下代码:DecimalFormat df = new DecimalFormat("0.0") //一个包括0的保留一位小数的浮点数字float num = 0.123;df.format... 阅读全文
posted @ 2015-04-15 13:04 ooon 阅读(942) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11