andreaxgz

2017年12月29日

摘要：正则化：正则化是结构风险最小化策略的实现，是在经验风险上加上一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如正则化项可以是模型参数向量的范数。正则化的作用：选择经验风险与模型复杂度同时较小的模型交叉验证：在数据充足的情况下，会直接将数据分为训练集阅读全文

posted @ 2017-12-29 09:24 andreaxgz 阅读(215) 评论(0) 推荐(0) 编辑

2017年11月13日

用于短文本聚类的吉布斯采样狄利克雷多项式混合模型算法（GSDMM）

摘要： GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法（a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model）的简称，它是发表在2014年KDD上的论文《A Dirichlet Mu 阅读全文

posted @ 2017-11-13 19:34 andreaxgz 阅读(3675) 评论(0) 推荐(0) 编辑

问题整理

摘要： Q1 监督学习与无监督学习监督学习：通常是分类，通过已有的训练样本，即已知数据及其对应的输出，去训练一个最优模型。再利用这个模型对所有的数据映射相应的输出。对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。无监督学习：我们事先没有任何训练样本，而需要直接对数据进行建模阅读全文

posted @ 2017-11-13 15:38 andreaxgz 阅读(130) 评论(0) 推荐(0) 编辑

2017年11月6日

Total Hamming Distance

摘要：更简便如下： $\overline r_a + \frac{\sum_{b\in N}\quad sim(a, b)*(r_{b, P}\qquad - \overline r_{\qquad b})}{\sum_{b\in N} \quad sim(a, b)}$ 阅读全文

posted @ 2017-11-06 13:53 andreaxgz 阅读(153) 评论(0) 推荐(0) 编辑

2017年11月1日

Top K Frequent Elements

摘要：看到网上有个更简便的阅读全文

posted @ 2017-11-01 17:47 andreaxgz 阅读(106) 评论(0) 推荐(0) 编辑

公告