Loading

摘要: TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 阅读全文
posted @ 2020-11-16 16:55 lotuslaw 阅读(55) 评论(0) 推荐(0) 编辑
摘要: SVM算法是一个很优秀的算法,在集成学习和神经网络之类的算法没有表现出优越性能前,SVM基本占据了分类模型的统治地位。目前则是在大数据时代的大样本背景下,SVM由于其在大样本时超级大的计算量,热度有所下降,但是仍然是一个常用的机器学习算法。 阅读全文
posted @ 2020-11-16 14:49 lotuslaw 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 感知机算法是一个简单易懂的算法。它是很多算法的鼻祖,比如支持向量机算法,神经网络与深度学习。 阅读全文
posted @ 2020-11-16 11:04 lotuslaw 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 随机森林是bagging的一个特化进阶版,所谓的特化是因为随机森林的弱学习器都是决策树。所谓的进阶是随机森林在bagging的样本随机采样基础上,又加上了特征的随机选择,其基本思想没有脱离bagging的范畴。 阅读全文
posted @ 2020-11-16 10:04 lotuslaw 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。 阅读全文
posted @ 2020-11-16 09:20 lotuslaw 阅读(77) 评论(0) 推荐(0) 编辑
摘要: 1970年代,一个叫做昆兰的大神找到了用信息论中的熵来度量决策树的决策选择过程...... 阅读全文
posted @ 2020-11-15 15:37 lotuslaw 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯-朴素:属性独立假设。 阅读全文
posted @ 2020-11-15 13:05 lotuslaw 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 利用Logistics回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归” 一词源于最佳拟合,表示要找到最佳拟合参数集。 阅读全文
posted @ 2020-11-15 11:10 lotuslaw 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 时间序列:一个变量在连续时间段内的一系列观测值。如过去十年的月度股票市场回报率数据,就是一个时间序列数据。 阅读全文
posted @ 2020-11-13 21:06 lotuslaw 阅读(128) 评论(0) 推荐(0) 编辑
摘要: KKT条件是非线性规划最佳解的必要条件,KKT条件将拉格朗日乘数法所处理的涉及等式约束的优化问题,推广至不等式约束。 阅读全文
posted @ 2020-11-13 19:26 lotuslaw 阅读(148) 评论(0) 推荐(0) 编辑