摘要: 对这个问题一直不是很懂,希望有经验或者知道的能告诉我~ 一个程序对一个文件读取以后,第二遍再读取就快很多,这是为什么呢? 应该是有缓存的原因,但是操作系统把它缓存在哪 不会是内存的一部分了吧? 同样的,对文件进行随机读取是非常慢的,都是毫秒级的速度,而一个程序在随机跳跃位移读了一次,再次随机读同样的... 阅读全文
posted @ 2012-07-04 14:47 梁喵 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 废弃了! (更新于2012/07/20)关注和学习数据挖掘不少年,现在数据挖掘算法已经非常多了,比较出名的基本都能找到实现好的。掌握一个算法原理十分重要,但我觉得实现一遍算法对于算法的如何适用数据才是最有帮助的。一些挖掘工具遇到大量点的数据集就吃不消,可能是对内存不珍惜,可能是对计算不节俭等等。感觉 阅读全文
posted @ 2012-07-03 17:44 梁喵 阅读(587) 评论(1) 推荐(0) 编辑
摘要: 随机交换的思想简单的说就是看一个数据集的挖掘结果是不是由特定因素造成的 阅读全文
posted @ 2012-03-24 22:42 梁喵 阅读(191) 评论(0) 推荐(0) 编辑
摘要: hadoop系列安装,一顿折腾,Mapreduce需要安装lzo,hbase跑job需要配置hadoop classpath,hive需要Mysql,Hive-hbase-handler需要add jar 阅读全文
posted @ 2012-03-06 11:05 梁喵 阅读(348) 评论(0) 推荐(0) 编辑
摘要: Smartcn分词器是ictclas的java版ictclas4j的简化版 分词三步:1)原子切分;2)找出原子之间所有可能的组词方案;3)通过动态规划找出字或词构成整句话的最少消耗,确定分词。 阅读全文
posted @ 2012-03-04 23:15 梁喵 阅读(655) 评论(0) 推荐(0) 编辑
摘要: CSDN太坑爹了,泄露密码, 居然登陆不上,经常开小差。唯一好处是漂亮 算了放弃 阅读全文
posted @ 2012-03-04 16:41 梁喵 阅读(106) 评论(0) 推荐(0) 编辑