05 2020 档案
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12996858.html 集成算法 在数据挖掘中,分类算法可以说是核心算法,其中 AdaBoost 算法与随机森林算法一样都属于分类算法中的集成算法。 集成的含义就是集思广益,博取众长,当我们做决定的时候
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12991089.html PageRank 的简化模型 假设一共有 4 个网页 A、B、C、D。它们之间的链接信息如图所示: Note: 出链指的是链接出去的链接。入链指的是链接进来的链接。比如图中 A
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12987224.html 关联规则挖掘 关联规则挖掘可以让我们从数据集中发现项与项(item 与 item)之间的关系,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景,这个场景可以从消费
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12910191.html EM 聚类 EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法。 EM 算法过程 首先初始化参数,然后再观察预期,这两个步骤实际上
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12870414.html K-Means K-Means 是一种无监督学习,解决的是聚类问题。K 代表的是 K 类,Means 代表的是中心,这个算法的本质是确定 K 类的中心点,当找到了这些中心点,也就
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12855528.html 特征缩放 归一化 将一列数据变化到某个固定区间(范围)中,通常这个区间是[0, 1] 标准化 将数据变换为均值为0,标准差为1的分布 Rescaling (min-max nor
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12844059.html PCA 主成分分析利用正交变换将可能存在相关性的原始属性转换成一组线性无关的新属性,并通过选择重要的新属性实现降维。 为什么降维 在机器学习中 数据被表示为向量 当数据的维度很小
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12832908.html 过程划分 基于分词的数据准备,包括分词、单词权重计算、去掉停用词; 应用朴素贝叶斯分类进行分类,首先通过训练集得到朴素贝叶斯分类器,然后将分类器应用于测试集,并与实际结果做对比,
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12828493.html 什么是 TF-IDF 值 在多项式朴素贝叶斯中提到了“词的 TF-IDF 值”,TF-IDF 是一个统计方法,用来评估某个词语对于一个文件集或文档库中的其中一份文件的重要程度。
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12817568.html Naive Bayes 朴素贝叶斯( Naive Bayes )是一种 基于概率 统计的分类方法。它在 条件独立 这个假设的基础上,使用 贝叶斯定理 构建算法。 概念引入 条件概
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12812686.html List @Test public void listInitTest() { List<Integer> list = Stream.of(1, 2, 3, 4, 5, 6).
阅读全文
摘要:原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/12812560.html filter @Test public void filterTest() { List<Integer> list = Arrays.asList(1, 2, 3, 4, 5,
阅读全文