摘要: 1.参考资料, 一个很好的KD的资料list https://github.com/dkozlov/awesome-knowledge-distillation 一个中文的相关资料https://www.zhihu.com/question/333196499/answer/738197683 一些 阅读全文
posted @ 2019-08-30 17:21 wwwwb 阅读(886) 评论(0) 推荐(0) 编辑
摘要: 1.综述 资料集合 模型是由于有较高的方差产生,集成多个模型可以减小方差,为了使模型有集成有效,需要每一模型都需要是很好的模型但是需要犯不同的错误,结果会更鲁棒一些 主要参考内容https://machinelearningmastery.com/stacking-ensemble-for-deep 阅读全文
posted @ 2019-08-30 17:12 wwwwb 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 1.在计算联合概率P(X,Y)的时候,先验概率P(Y)可以直接从样本中获得,但是条件概率P(X|Y)由于X是高为特征的所以很难求出结果,所以假设X的没一个维度的特诊都相互独立,假设P(X|Y) = P(x1|Y)*P(x2|Y),牺牲了一定的准确性来获得算法的大幅度简化。 2.类条件概率密度是假设出 阅读全文
posted @ 2019-08-30 15:09 wwwwb 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1.hash trick 使用hash trick的根本原因是直接使用词的onehot等方式向量,导致高维度消耗内存太大,需要降维使用 做法就是根据哈希函数使高纬度表示映射到低纬,在使用过程中再反转回去。 2.tf-idf(Term Frequency - Inverse Document Freq 阅读全文
posted @ 2019-08-30 09:51 wwwwb 阅读(234) 评论(0) 推荐(0) 编辑