摘要:
对这个问题一直不是很懂,希望有经验或者知道的能告诉我~ 一个程序对一个文件读取以后,第二遍再读取就快很多,这是为什么呢? 应该是有缓存的原因,但是操作系统把它缓存在哪 不会是内存的一部分了吧? 同样的,对文件进行随机读取是非常慢的,都是毫秒级的速度,而一个程序在随机跳跃位移读了一次,再次随机读同样的... 阅读全文
摘要:
废弃了! (更新于2012/07/20)关注和学习数据挖掘不少年,现在数据挖掘算法已经非常多了,比较出名的基本都能找到实现好的。掌握一个算法原理十分重要,但我觉得实现一遍算法对于算法的如何适用数据才是最有帮助的。一些挖掘工具遇到大量点的数据集就吃不消,可能是对内存不珍惜,可能是对计算不节俭等等。感觉 阅读全文
摘要:
随机交换的思想简单的说就是看一个数据集的挖掘结果是不是由特定因素造成的 阅读全文
摘要:
hadoop系列安装,一顿折腾,Mapreduce需要安装lzo,hbase跑job需要配置hadoop classpath,hive需要Mysql,Hive-hbase-handler需要add jar 阅读全文