09 2019 档案
摘要:数据库中有有一张表专门存储用户的维度数据,由于随着时间的推移,用户的维度数据也可能发生变化,故每一次查看都会保存一次记录。现在需要对数据按用户分析,但当中有大量的重复数据,仅用数据库的等值去重明显不可行。 对数据内容求MD5值 MD5值的特点: 1.压缩性:任意长度的数据,算出的MD5值长度都是固定
阅读全文
摘要:机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。 假如你在乎精度(a
阅读全文
摘要:眼前的困难和问题,很可能是过去没有准备的结果;而现在的失败,往往是过去草率行事的结果。同样,工业大数据浪潮来了,却会发现积累了多年的数据没法用。我总结了一下,大体有三种原因: 1、数据对应不上 围绕同一个对象或过程的数据都有记录,但串不起来。比如,一个产品是某设备生产的。产品信息却无法与设备生产的时
阅读全文
摘要:Top-k的最小堆解决方法 问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10) 问题分析:由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。 可以利用数据结构的最小堆来处理该问题。 最小堆如图所示,对于每个非叶
阅读全文