摘要: 测试并发情况下,java TreeSet和LinkedList的插入删除效率. 阅读全文
posted @ 2014-05-18 00:18 CodeMeals 阅读(3087) 评论(1) 推荐(0) 编辑
摘要: 本文主要将最大连续子序列和的问题及其历史,这个题目在很多公司的面试中出现,编程之美也有讲述。 阅读全文
posted @ 2014-05-16 22:00 CodeMeals 阅读(5348) 评论(0) 推荐(0) 编辑
摘要: 实现了一个简单靠谱的求救求救APK,能在紧急情况下无需解锁即可发送求救短信给指定的人。 阅读全文
posted @ 2014-05-13 14:11 CodeMeals 阅读(1900) 评论(17) 推荐(4) 编辑
摘要: 本文通过对对相似微博的发现,来讲述局部敏感hash的基本原理及应用 阅读全文
posted @ 2014-04-23 22:39 CodeMeals 阅读(16586) 评论(6) 推荐(12) 编辑
摘要: Hash是把锋利的刀子,处理海量数据时经常用到,大家可能经常用hash,但hash的有些特点你是否想过、理解过。我们可以利用我们掌握的概率和期望的知识,来分析Hash中一些有趣的问题,比如: 平均每个桶上的项的个数 平均查找次数 平均冲突次数 平均空桶个数 使每个桶都至少有一个项的项个数的期望 阅读全文
posted @ 2014-01-06 22:31 CodeMeals 阅读(9349) 评论(0) 推荐(3) 编辑
摘要: 本文介绍分类算法的评价 阅读全文
posted @ 2013-11-19 22:08 CodeMeals 阅读(7509) 评论(2) 推荐(4) 编辑
摘要: 本文介绍android手机屏幕关闭后保持传感器运行的方法,对一些手机有效,对不支持该功能的手机无能无力。 阅读全文
posted @ 2013-11-04 19:11 CodeMeals 阅读(3773) 评论(0) 推荐(0) 编辑
摘要: 从这篇开始,我将介绍分类问题,主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇,欢迎关注和交流。 阅读全文
posted @ 2013-08-20 12:43 CodeMeals 阅读(32543) 评论(6) 推荐(3) 编辑
摘要: 上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目。 阅读全文
posted @ 2013-08-15 10:41 CodeMeals 阅读(5367) 评论(5) 推荐(2) 编辑
摘要: 前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具weka进行管理规则挖掘。 阅读全文
posted @ 2013-08-14 15:49 CodeMeals 阅读(19820) 评论(15) 推荐(4) 编辑
摘要: 本文介绍了9个关联规则评价的准则,其中全自信度、最大自信度、Kulc、cosine,Leverage是不受空值影响的,这在处理大数据集是优势更加明显,因为大数据中想MC这样的空记录更多,根据分析我们推荐使用kulc准则和不平衡因子结合的方法。 阅读全文
posted @ 2013-08-13 17:52 CodeMeals 阅读(13130) 评论(8) 推荐(7) 编辑
摘要: FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高 阅读全文
posted @ 2013-08-06 10:39 CodeMeals 阅读(16041) 评论(22) 推荐(7) 编辑
摘要: 本文主要介绍数据挖掘中频繁项集与关联规则挖掘的基本概念和Apriori经典算法的原理和实现。 阅读全文
posted @ 2013-07-31 16:18 CodeMeals 阅读(23914) 评论(14) 推荐(11) 编辑
摘要: 凡事尽力就好,但求问心无愧! 如果您有在深圳的数据挖掘实习生岗位,可以联系我:pengji256@126.com,不在乎工资,只希望能锻炼自己,感激不尽。 阅读全文
posted @ 2013-07-12 23:44 CodeMeals 阅读(2346) 评论(10) 推荐(2) 编辑
摘要: 本篇主要讲述了扩展C语言的随机函数rand(),用位图实现了一个扩展算法,实现区间随机数的生成等。 阅读全文
posted @ 2013-07-03 09:43 CodeMeals 阅读(1300) 评论(0) 推荐(0) 编辑
摘要: 本文讲述利用位图生成一个无重复的乱序整数数据集。结合了位图和随机冲突处理。 阅读全文
posted @ 2013-07-02 09:41 CodeMeals 阅读(1927) 评论(6) 推荐(0) 编辑
摘要: 位图排序的思想就是在内存中申请一块连续的空间作为位图,初始时将位图的每一位都置为0,然后依次读取待排序文件的整数,将整数所在的位设置为1,最后扫描位图,如果某一位为1,则说明这个数存在,输出到已排序文件。 阅读全文
posted @ 2013-07-01 10:05 CodeMeals 阅读(2525) 评论(9) 推荐(3) 编辑
摘要: 本文介绍了一个利用hash和位图实现在线邮件地址过滤的方案,并给出了最优情况下的数学形式。 阅读全文
posted @ 2013-06-27 10:54 CodeMeals 阅读(2750) 评论(13) 推荐(4) 编辑
摘要: 本文介绍用python实现一个简易数据库,主要讲述多表join连接和group by处理。 阅读全文
posted @ 2013-06-26 11:13 CodeMeals 阅读(5484) 评论(0) 推荐(2) 编辑
摘要: 本文介绍用python实现一个简易数据库,包括基于正则的sql语句解析,和单表查询实现,与top n实现。 阅读全文
posted @ 2013-06-22 17:00 CodeMeals 阅读(3853) 评论(2) 推荐(2) 编辑
reliable statistics
Visitors