2016年9月21日

1亿个浮点数返回最大的10000个

摘要: 方案一: 读入100万个数据,找出最大的1万个,如果这100万个选的够理想,以这1万个里面最小的min_val为基准,可以过滤掉1亿数据里面的99%,也就是说小于这个min_val的就不用参与排序比较了,最后就再一次在剩下的100万(1%)里面找出最大的1w个。 100w个数据找出最大的1w个可以使 阅读全文

posted @ 2016-09-21 21:32 暴力的轮胎 阅读(280) 评论(0) 推荐(0) 编辑

海量文本信息查Top-k

摘要: 问题描述: 有1千万条短信,一条一行,有重复。在5分钟之内,找出重复出现的前10条。 方案一: 1.分组进行边扫描边建散列表。建立哈希表,使用头,尾和中间随便两个字节作为Hash Code, 插入到Hash table中,并记录其地址和重复次数。 2.hash code同且等长-》判定为疑似相同。然 阅读全文

posted @ 2016-09-21 20:46 暴力的轮胎 阅读(165) 评论(0) 推荐(0) 编辑

Coursera公开课-Machine_learing:编程作业4

摘要: 编程作业: Neural Network Learning 源码上传到gitlab。 对于神经网络的理解也都在源码注释里面了,感兴趣可以看看。 阅读全文

posted @ 2016-09-21 15:59 暴力的轮胎 阅读(232) 评论(0) 推荐(0) 编辑

导航