摘要:
● bagging和boosting的区别 参考回答: Bagging是从训练集中进行子抽样组成每个基模型所需要的子训练集,然后对所有基模型预测的结果进行综合操作产生最终的预测结果。 Boosting中基模型按次序进行训练,而基模型的训练集按照某种策略每次都进行一定的转化,最后以一定的方式将基分类器 阅读全文
摘要:
● 请你说一说推荐算法,fm,lr,embedding 参考回答: 推荐算法: 基于人口学的推荐、基于内容的推荐、基于用户的协同过滤推荐、基于项目的协同过滤推荐、基于模型的协同过滤推荐、基于关联规则的推荐 FM: LR: 逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层逻辑函数g(z), 阅读全文
摘要:
● 什么是DBSCAN 参考回答: DBSCAN是一种基于密度的空间聚类算法,它不需要定义簇的个数,而是将具有足够高密度的区域划分为簇,并在有噪声的数据中发现任意形状的簇,在此算法中将簇定义为密度相连的点的最大集合。 ● k-means算法流程 参考回答: 从数据集中随机选择k个聚类样本作为初始的聚 阅读全文
摘要:
● L1和L2正则化的区别 参考回答: L1是模型各个参数的绝对值之和,L2为各个参数平方和的开方值。L1更趋向于产生少量的特征,其它特征为0,最优的参数值很大概率出现在坐标轴上,从而导致产生稀疏的权重矩阵,而L2会选择更多的矩阵,但是这些矩阵趋向于0。 ● 问题:Loss Function有哪些, 阅读全文
摘要:
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数,为模型对样本i的预测结果,为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归 阅读全文
摘要:
处理分类问题常用算法 阅读全文