摘要:
社区发现在图领域中备受关注,其根源可以追溯到子图分割问题。在真实的社交网络中,用户之间的联系紧密度不尽相同,导致形成了不同的社区结构。社区发现问题主要分为两类:非重叠和重叠社区。非重叠社区发现指的是每个节点仅属于一个社区,社区之间没有交集。在非重叠社区发现中,有多种解决方法。其中,基于模块度的算法通 阅读全文
摘要:
KNN(k- Nearest Neighbor,简称为KNN)法即k最邻近法,最初由 Cover和Hart于1968年提出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一,它的适用面很广,并且在样本量足够大的情况下准确度很高,多年来得到了很多的关注和研究。k最近邻(KNN)算法是一种简单而 阅读全文
摘要:
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。 原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。数据的规范化(No 阅读全文
摘要:
概率密度函数是概率论核心概念之一,用于描述连续型随机变量所服从的概率分布,是概率计算的通用表达。研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!在实际使用时对应离散化后的频率。也可以这样理解,概率密度函数是数学通用表达的频率,而统计学中的频率是将其离散化后的表达,二者本质上 阅读全文
摘要:
Matplotlib 是一个 Python 的 2D 绘图库,提供了一种绘制可视化图形的简单而有效的方式。它可以创建各种类型的图表,包括线图、散点图、直方图、饼图等,使用户能够以可视化的方式呈现数据。Matplotlib 的主要作用是提供一个灵活、可定制的工具集,用于创建高质量的图形。它使得数据分析 阅读全文
摘要:
运输问题(Transportation Problem)是运筹学中的经典问题,通常涉及将资源从供应点转移到需求点,以最小化运输成本或满足需求。这个问题在各种实际场景中都有广泛的应用。如在供应链管理中,最小化运输问题可用于确定最有效的货物运输方式,以满足各个节点之间的需求。这包括原材料从供应商到制造商 阅读全文
摘要:
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。这个工具的主要功能包括:测试与浏览器的兼容性——测试应用程序看 阅读全文
摘要:
爬取网页曲线图数据的应用十分广泛。在市场分析领域,投资者可以通过分析金融网站上的股票曲线图数据来了解股市趋势,从而做出更明智的投资决策。在科学研究中,研究人员可以通过爬取科学期刊网站上的曲线图数据来分析实验结果,推动科学进步。在气象领域,气象学家可以通过爬取气象网站上的气温曲线图数据来进行天气预测和 阅读全文
摘要:
Jupyter Notebook 是一个开源的交互式笔记本环境,支持多种编程语言,包括 Python 和 R。它被广泛应用于数据分析、机器学习、科学计算等领域。在 Jupyter Notebook 中,用户可以结合编写文本、代码和可视化结果,以便于进行数据探索、模型开发以及结果展示。然而,随着项目的 阅读全文
摘要:
爬虫技术作为信息搜集的重要手段,在大数据时代发挥着至关重要的作用。通过网络爬虫,可以高效地从各种在线源头获取大规模、多样化的数据,为大数据分析和应用提供了必要的原始材料。首先,爬虫使得大数据的采集更为全面和及时。网络上存在着庞大的信息资源,包括社交媒体、新闻网站、电子商务平台等,而爬虫能够自动化地遍 阅读全文