随笔分类 - Python精要
用到的PYhton
摘要:随着深度学习、大数据和AI的发展,Python的热度持续上升,引发了关于选择Python还是R的讨论。作为数据分析工具,两者各有优缺点。在特定领域,如生态学,R仍被广泛应用,而Python则更多用于日常办公自动化,如批量处理文档和Excel。由于数据处理占用了我们大量时间,很多人希望数据分析操作能够
阅读全文
摘要:逻辑回归(Logistic Regression),又称为 logistic 回归分析,是一种广义的线性回归模型,通常用于解决分类问题。虽然名字里有“回归”,但实际上它属于机器学习中的监督学习方法。逻辑回归最初用于解决二分类问题,它也可以通过一些技巧扩展到多分类问题。在实际应用中,我们通常使用给定的
阅读全文
摘要:异常检测(Anomaly detection)是机器学习的常见应用,其目标是识别数据集中的异常或不寻常模式。尽管通常被归类为非监督学习问题,异常检测却具有与监督学习相似的特征。在异常检测中,我们通常处理的是未标记的数据,即没有明确的标签指示哪些样本是异常的。相反,算法需要根据数据本身的特征来确定异常
阅读全文
摘要:社交媒体充斥着我们生活的时代,其已经成为了人们交流、获取信息、建立关系的重要平台。无论是微信、微博、抖音等,还是其他社交媒体,都构成了庞大而复杂的社交网络。在这个网络中,我们关注着各种KOL(Key Opinion Leader,关键意见领袖),同时也有自己的粉丝,形成了一个错综复杂的社交关系网。随
阅读全文
摘要:Scikit-learn(简称为sklearn)是一个开源的Python机器学习库,提供了丰富而强大的工具,用于数据挖掘和数据分析。它的发展始于2007年,由David Cournapeau在Google Summer of Code项目中启动,后续得到了许多开发者的贡献,包括法国国家信息与自动化研
阅读全文
摘要:社会网络分析(Social Network Analysis, SNA)在人类学、心理学、社会学、数学以及统计学等领域中发展起来,是综合运用图论、数学模型来研究社会行动者之间的关系或通过这些关系流动的各种有形或无形的东西,如信息、资源等,近年来逐渐成为一种热门的社会科学研究方法。社会网络分析旨在理解
阅读全文
摘要:特征重要性评估(Variable importance measure, or Feature importance evaluation,VIM)用来计算样本特征的重要性,定量地描述特征对分类或者回归的贡献程度。随机森林(Random Forest)作为一种强大的机器学习算法,在特征重要性评估方面
阅读全文
摘要:AdaBoost是Freund和Schapire于1996年提出的一种集成学习方法。它的核心思想是通过迭代训练一系列弱分类器,每次调整样本权重以便更好地拟合被前一轮分类器错误分类的样本,从而构建一个强分类器。最终的模型是基于这些弱分类器的加权组合。AdaBoost广泛应用于二分类和多分类问题,尤其在
阅读全文
摘要:随机森林(Random Forest)是一种强大的集成学习方法,将多个决策树组合成一个更为强大和稳健的模型,适用于分类和回归任务。其核心思想是通过构建大量决策树,每棵树都基于不同的随机样本和特征子集进行训练,最后通过投票或平均的方式综合所有树的预测结果。这样做的好处在于增加了模型的多样性,减少了过拟
阅读全文
摘要:支持向量机(Support Vector Machine,SVM)是一种强大的监督学习算法,用于分类和回归任务。其核心思想是在高维空间中找到一个最优的超平面,将不同类别的数据分开。SVM的关键在于找到支持向量,即离超平面最近的数据点,这些支持向量决定了超平面的位置和方向。SVM通过最大化支持向量与超
阅读全文
摘要:PageRank算法是一种用于评估网页重要性的算法,它基于网页之间的链接结构来确定网页的权重和重要性。算法的核心思想是通过迭代计算网页之间的链接关系,以确定每个网页的权重。它将互联网视为一个有向图,其中网页是节点,链接是有向边。算法通过以下方式计算网页的PageRank值:每个网页的初始PageRa
阅读全文
摘要:社区发现在图领域中备受关注,其根源可以追溯到子图分割问题。在真实的社交网络中,用户之间的联系紧密度不尽相同,导致形成了不同的社区结构。社区发现问题主要分为两类:非重叠和重叠社区。非重叠社区发现指的是每个节点仅属于一个社区,社区之间没有交集。在非重叠社区发现中,有多种解决方法。其中,基于模块度的算法通
阅读全文
摘要:KNN(k- Nearest Neighbor,简称为KNN)法即k最邻近法,最初由 Cover和Hart于1968年提出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一,它的适用面很广,并且在样本量足够大的情况下准确度很高,多年来得到了很多的关注和研究。k最近邻(KNN)算法是一种简单而
阅读全文
摘要:数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。 原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。数据的规范化(No
阅读全文
摘要:概率密度函数是概率论核心概念之一,用于描述连续型随机变量所服从的概率分布,是概率计算的通用表达。研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!在实际使用时对应离散化后的频率。也可以这样理解,概率密度函数是数学通用表达的频率,而统计学中的频率是将其离散化后的表达,二者本质上
阅读全文
摘要:Matplotlib 是一个 Python 的 2D 绘图库,提供了一种绘制可视化图形的简单而有效的方式。它可以创建各种类型的图表,包括线图、散点图、直方图、饼图等,使用户能够以可视化的方式呈现数据。Matplotlib 的主要作用是提供一个灵活、可定制的工具集,用于创建高质量的图形。它使得数据分析
阅读全文
摘要:Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。这个工具的主要功能包括:测试与浏览器的兼容性——测试应用程序看
阅读全文
摘要:爬取网页曲线图数据的应用十分广泛。在市场分析领域,投资者可以通过分析金融网站上的股票曲线图数据来了解股市趋势,从而做出更明智的投资决策。在科学研究中,研究人员可以通过爬取科学期刊网站上的曲线图数据来分析实验结果,推动科学进步。在气象领域,气象学家可以通过爬取气象网站上的气温曲线图数据来进行天气预测和
阅读全文
摘要:爬虫技术作为信息搜集的重要手段,在大数据时代发挥着至关重要的作用。通过网络爬虫,可以高效地从各种在线源头获取大规模、多样化的数据,为大数据分析和应用提供了必要的原始材料。首先,爬虫使得大数据的采集更为全面和及时。网络上存在着庞大的信息资源,包括社交媒体、新闻网站、电子商务平台等,而爬虫能够自动化地遍
阅读全文
摘要:递归指的是函数或算法在执行过程中调用自身。在递归的过程中,程序会不断地将自身的执行过程压入调用栈中,直到满足某个条件结束递归调用并开始返回。递归算法常用于解决一些具有递归结构的问题,比如树、图、排序等。递归算法可以使代码更加简洁明了,但也需要注意递归深度、算法效率和内存占用等问题。通俗的说,递归就像
阅读全文