随笔分类 - 数据挖掘
R语言 数据挖掘
摘要:LDA假设每个文档都是多个主题的混合,每个主题又是多个词语的混合。它通过识别文档中的词语分布来推断出文档的主题结构。LDA的一个简单比喻是冰淇淋店:每个文档就像一个装满多种口味冰淇淋的甜筒,而LDA的任务就是根据观察到的冰淇淋,推断出每种口味(即每个主题)在这些甜筒中的比例。LDA(Latent D
阅读全文
摘要:主题模型是用于发现文档集合中隐含主题的统计模型,主题可以定义为“文档集中具有相同词境的词的集合模式”。主题模型克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。最著名的主题模型是LDA(Latent Dirichlet Allocation)潜在狄利
阅读全文
摘要:贝叶斯分布理论是统计推断的重要分支,其核心思想是利用贝叶斯定理,将先验知识与新观测数据结合,从而动态更新对未知参数的认识。这一理论框架以概率为基础,特别适合处理不确定性问题,在统计学及相关领域中具有重要地位。贝叶斯推断的一大优势是其计算上的简化性,尤其是通过共轭分布的应用。例如,在二项分布参数\(p
阅读全文
摘要:卷积神经网络(Convolutional Neural Networks)是一种深度学习模型或类似于人工神经网络的多层感知器,常用来分析视觉图像。该算法的灵感来自于人脑的一部分,即视觉皮层。视觉皮层是人脑的一部分,负责处理来自外界的视觉信息。它有不同的层,每一层都有自己的功能,即每一层从图像或任何视
阅读全文
摘要:sklearn.neural_network 是 scikit-learn 库中的一个模块,提供了创建和训练神经网络模型的工具。scikit-learn 是一个广泛使用的 Python 机器学习库,以其简洁性和高效性著称。该库的设计理念是通过简洁的接口和高效的实现,使用户能够快速构建和应用机器学习模
阅读全文
摘要:Q-learning是一种基于值迭代的强化学习(Reinforcement Learning, RL)算法,主要用于在给定环境中学习一个策略,使得智能体(agent)能够在与环境交互的过程中获得最大累计奖励。它通过学习一个状态-动作值函数(Q函数)来指导智能体的行为选择,适用于各种离散状态和动作的任
阅读全文
摘要:在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况。正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。如果将模型原始的假设空间比作“天空”,那么天空
阅读全文
摘要:逻辑回归(Logistic Regression),又称为 logistic 回归分析,是一种广义的线性回归模型,通常用于解决分类问题。虽然名字里有“回归”,但实际上它属于机器学习中的监督学习方法。逻辑回归最初用于解决二分类问题,它也可以通过一些技巧扩展到多分类问题。在实际应用中,我们通常使用给定的
阅读全文
摘要:异常检测(Anomaly detection)是机器学习的常见应用,其目标是识别数据集中的异常或不寻常模式。尽管通常被归类为非监督学习问题,异常检测却具有与监督学习相似的特征。在异常检测中,我们通常处理的是未标记的数据,即没有明确的标签指示哪些样本是异常的。相反,算法需要根据数据本身的特征来确定异常
阅读全文
摘要:社交媒体充斥着我们生活的时代,其已经成为了人们交流、获取信息、建立关系的重要平台。无论是微信、微博、抖音等,还是其他社交媒体,都构成了庞大而复杂的社交网络。在这个网络中,我们关注着各种KOL(Key Opinion Leader,关键意见领袖),同时也有自己的粉丝,形成了一个错综复杂的社交关系网。随
阅读全文
摘要:Scikit-learn(简称为sklearn)是一个开源的Python机器学习库,提供了丰富而强大的工具,用于数据挖掘和数据分析。它的发展始于2007年,由David Cournapeau在Google Summer of Code项目中启动,后续得到了许多开发者的贡献,包括法国国家信息与自动化研
阅读全文
摘要:社会网络分析(Social Network Analysis, SNA)在人类学、心理学、社会学、数学以及统计学等领域中发展起来,是综合运用图论、数学模型来研究社会行动者之间的关系或通过这些关系流动的各种有形或无形的东西,如信息、资源等,近年来逐渐成为一种热门的社会科学研究方法。社会网络分析旨在理解
阅读全文
摘要:特征重要性评估(Variable importance measure, or Feature importance evaluation,VIM)用来计算样本特征的重要性,定量地描述特征对分类或者回归的贡献程度。随机森林(Random Forest)作为一种强大的机器学习算法,在特征重要性评估方面
阅读全文
摘要:AdaBoost是Freund和Schapire于1996年提出的一种集成学习方法。它的核心思想是通过迭代训练一系列弱分类器,每次调整样本权重以便更好地拟合被前一轮分类器错误分类的样本,从而构建一个强分类器。最终的模型是基于这些弱分类器的加权组合。AdaBoost广泛应用于二分类和多分类问题,尤其在
阅读全文
摘要:随机森林(Random Forest)是一种强大的集成学习方法,将多个决策树组合成一个更为强大和稳健的模型,适用于分类和回归任务。其核心思想是通过构建大量决策树,每棵树都基于不同的随机样本和特征子集进行训练,最后通过投票或平均的方式综合所有树的预测结果。这样做的好处在于增加了模型的多样性,减少了过拟
阅读全文
摘要:支持向量机(Support Vector Machine,SVM)是一种强大的监督学习算法,用于分类和回归任务。其核心思想是在高维空间中找到一个最优的超平面,将不同类别的数据分开。SVM的关键在于找到支持向量,即离超平面最近的数据点,这些支持向量决定了超平面的位置和方向。SVM通过最大化支持向量与超
阅读全文
摘要:PageRank算法是一种用于评估网页重要性的算法,它基于网页之间的链接结构来确定网页的权重和重要性。算法的核心思想是通过迭代计算网页之间的链接关系,以确定每个网页的权重。它将互联网视为一个有向图,其中网页是节点,链接是有向边。算法通过以下方式计算网页的PageRank值:每个网页的初始PageRa
阅读全文
摘要:社区发现在图领域中备受关注,其根源可以追溯到子图分割问题。在真实的社交网络中,用户之间的联系紧密度不尽相同,导致形成了不同的社区结构。社区发现问题主要分为两类:非重叠和重叠社区。非重叠社区发现指的是每个节点仅属于一个社区,社区之间没有交集。在非重叠社区发现中,有多种解决方法。其中,基于模块度的算法通
阅读全文
摘要:KNN(k- Nearest Neighbor,简称为KNN)法即k最邻近法,最初由 Cover和Hart于1968年提出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一,它的适用面很广,并且在样本量足够大的情况下准确度很高,多年来得到了很多的关注和研究。k最近邻(KNN)算法是一种简单而
阅读全文
摘要:爬虫技术作为信息搜集的重要手段,在大数据时代发挥着至关重要的作用。通过网络爬虫,可以高效地从各种在线源头获取大规模、多样化的数据,为大数据分析和应用提供了必要的原始材料。首先,爬虫使得大数据的采集更为全面和及时。网络上存在着庞大的信息资源,包括社交媒体、新闻网站、电子商务平台等,而爬虫能够自动化地遍
阅读全文