摘要:
测试并发情况下,java TreeSet和LinkedList的插入删除效率. 阅读全文
摘要:
本文主要将最大连续子序列和的问题及其历史,这个题目在很多公司的面试中出现,编程之美也有讲述。 阅读全文
摘要:
实现了一个简单靠谱的求救求救APK,能在紧急情况下无需解锁即可发送求救短信给指定的人。 阅读全文
摘要:
本文通过对对相似微博的发现,来讲述局部敏感hash的基本原理及应用 阅读全文
摘要:
Hash是把锋利的刀子,处理海量数据时经常用到,大家可能经常用hash,但hash的有些特点你是否想过、理解过。我们可以利用我们掌握的概率和期望的知识,来分析Hash中一些有趣的问题,比如:
平均每个桶上的项的个数
平均查找次数
平均冲突次数
平均空桶个数
使每个桶都至少有一个项的项个数的期望 阅读全文
摘要:
本文介绍分类算法的评价 阅读全文
摘要:
本文介绍android手机屏幕关闭后保持传感器运行的方法,对一些手机有效,对不支持该功能的手机无能无力。 阅读全文
摘要:
从这篇开始,我将介绍分类问题,主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇,欢迎关注和交流。 阅读全文
摘要:
上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目。 阅读全文
摘要:
前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具weka进行管理规则挖掘。 阅读全文
摘要:
本文介绍了9个关联规则评价的准则,其中全自信度、最大自信度、Kulc、cosine,Leverage是不受空值影响的,这在处理大数据集是优势更加明显,因为大数据中想MC这样的空记录更多,根据分析我们推荐使用kulc准则和不平衡因子结合的方法。 阅读全文
摘要:
FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高 阅读全文
摘要:
本文主要介绍数据挖掘中频繁项集与关联规则挖掘的基本概念和Apriori经典算法的原理和实现。 阅读全文
摘要:
凡事尽力就好,但求问心无愧!
如果您有在深圳的数据挖掘实习生岗位,可以联系我:pengji256@126.com,不在乎工资,只希望能锻炼自己,感激不尽。 阅读全文
摘要:
本篇主要讲述了扩展C语言的随机函数rand(),用位图实现了一个扩展算法,实现区间随机数的生成等。 阅读全文
摘要:
本文讲述利用位图生成一个无重复的乱序整数数据集。结合了位图和随机冲突处理。 阅读全文
摘要:
位图排序的思想就是在内存中申请一块连续的空间作为位图,初始时将位图的每一位都置为0,然后依次读取待排序文件的整数,将整数所在的位设置为1,最后扫描位图,如果某一位为1,则说明这个数存在,输出到已排序文件。 阅读全文
摘要:
本文介绍了一个利用hash和位图实现在线邮件地址过滤的方案,并给出了最优情况下的数学形式。 阅读全文
摘要:
本文介绍用python实现一个简易数据库,主要讲述多表join连接和group by处理。 阅读全文
摘要:
本文介绍用python实现一个简易数据库,包括基于正则的sql语句解析,和单表查询实现,与top n实现。 阅读全文