wjx-2005-07-01 |
|
||
2024年1月29日
摘要:
古诗文网模拟登陆(含验证码识别) 一、 首先我们需要进如未登录页面(https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx) url = 'https://so.gushiwen.cn/u 阅读全文
2024年1月28日
摘要:
机器学习方法概述与数据加载 一、机器学习概述 机器学习是从已有的观察数据中学习规律,从而获得知识,建立数学模型,并利用模型对新的观察数据做出预测或解释。机器学习的关键是从已有的观察数据中学习模型,并不断调整参数,使模型拟合已有的观察数据,从而建立合适的数学模型。 从输入的数据特性来分,机器学习算法大 阅读全文
2024年1月24日
摘要:
Pandas数据处理与分析 Pandas是基于NumPy的一种数据分析工具库。 一、数据结构与基本操作 目前Pandas主要提供两种数据结构:Series是带标签的一维数组;DataFrame是带标签且大小可变的二维数组。 1.1、Series基础 import numpy as np import 阅读全文
2024年1月23日
摘要:
Matplotlib数据可视化基础 一、绘制基本图形 1、绘制折线图 import numpy as np import matplotlib.pyplot as plt #创建数组x x = np.arange(10) np.random.seed(500) #创建数组y y = np.rando 阅读全文
2024年1月22日
摘要:
NumPy数据处理基础 一、数据结构 NumPy中主要有多维数组和矩阵结构。 1.1、利用array()函数创建数组 numpy.array(object , dtype=None,*,copy=True,order='K',subok=False,ndmin=0,like=None) object 阅读全文
2024年1月21日
摘要:
网络爬虫框架:Scrapy Scrapy是一个非常优秀的爬虫框架,通过Scrapy框架,可以非常轻松的实现强大的爬虫系统。 一、Scrapy简介 Scrapy主要包括如下6个部分: Scrapy Engine:用来处理整个系统的数据流,触发各种事件。 Scheduler:从URL队列中取出一个URL 阅读全文
2024年1月20日
摘要:
多线程和多进程爬虫 在很多场景中,爬虫需要抓取大量的数据,而且需要做大量的分析工作。如果只使用单线程的爬虫,效率会非常低。通常有实用价值的爬虫会使用多线程或多进程,这样可以很多工作同时完成,尤其在多CPU的机器上,执行效率更是惊人。 一、线程与进程 1、进程 计算机程序有静态和动态的区别。静态的计算 阅读全文
2024年1月19日
摘要:
异步数据 之前爬取的网站基本上都是同步数据,每一页的内容都不需要再次加载,而是通过翻页获取更多数据;其实有很多网站显示在页面上的的数据并不是一次性从服务端获取的,如图像搜索网站,当滚动下拉条时,会随着滚动条向下移动,有更多的图片显示出来。这些图片就是通过异步的方不断从服务端获取的,这就是异步数据。 阅读全文
2024年1月18日
摘要:
数据存储 一、文件存储 为什么需要文件存储? 爬虫在抓取数据后,需要对抓取到的这些数据进行分析,分析完之后需要将有用的数据进行保存。保存数据有很多种方式,其中最简单的就是将数据保存在二进制文件或文本文件中。这些文件主要包括XML文件、CSV文件、JSON文件。 在对文件进行操作时,涉及到打开文件,读 阅读全文
2024年1月17日
摘要:
解析库 解析库的意思是对我们需要爬取的数据进行操作,从而获得想要的数据。 解析库有很多种,我们可以根据自己的习惯进行选取。 主要分为以下四种: 正则表达式 xpath Beautiful Soup pyquery 一、正则表达式 首先讲解正则表达式的使用方法. 1) 元字符 元字符 匹配内容 . 匹 阅读全文
|
Copyright © 2024 星辰与Python
Powered by .NET 9.0 on Kubernetes |