梁喵 - 博客园

2012年7月4日

摘要：对这个问题一直不是很懂，希望有经验或者知道的能告诉我~ 一个程序对一个文件读取以后，第二遍再读取就快很多，这是为什么呢？应该是有缓存的原因，但是操作系统把它缓存在哪不会是内存的一部分了吧？同样的，对文件进行随机读取是非常慢的，都是毫秒级的速度，而一个程序在随机跳跃位移读了一次，再次随机读同样的... 阅读全文

posted @ 2012-07-04 14:47 梁喵阅读(242) 评论(0) 推荐(0)

2012年7月3日

一个数据挖掘算法的项目:dami

摘要：废弃了！ (更新于2012/07/20)关注和学习数据挖掘不少年，现在数据挖掘算法已经非常多了，比较出名的基本都能找到实现好的。掌握一个算法原理十分重要，但我觉得实现一遍算法对于算法的如何适用数据才是最有帮助的。一些挖掘工具遇到大量点的数据集就吃不消，可能是对内存不珍惜，可能是对计算不节俭等等。感觉阅读全文

posted @ 2012-07-03 17:44 梁喵阅读(622) 评论(1) 推荐(0)

2012年3月24日

随机交换检验数据挖掘结果-assessing data mining result via swap randomization

摘要：随机交换的思想简单的说就是看一个数据集的挖掘结果是不是由特定因素造成的阅读全文

posted @ 2012-03-24 22:42 梁喵阅读(204) 评论(0) 推荐(0)

2012年3月6日

折腾hadoop安装系列

摘要： hadoop系列安装，一顿折腾，Mapreduce需要安装lzo，hbase跑job需要配置hadoop classpath，hive需要Mysql，Hive-hbase-handler需要add jar 阅读全文

posted @ 2012-03-06 11:05 梁喵阅读(355) 评论(0) 推荐(0)

2012年3月4日

lucene smartcn原理

摘要： Smartcn分词器是ictclas的java版ictclas4j的简化版分词三步：1）原子切分；2）找出原子之间所有可能的组词方案；3）通过动态规划找出字或词构成整句话的最少消耗，确定分词。阅读全文

posted @ 2012-03-04 23:15 梁喵阅读(679) 评论(0) 推荐(0)

准备把csdn的博客迁移到这里

摘要： CSDN太坑爹了，泄露密码，居然登陆不上，经常开小差。唯一好处是漂亮算了放弃阅读全文

posted @ 2012-03-04 16:41 梁喵阅读(113) 评论(0) 推荐(0)

梁喵

公告