wjx-2005-07-01

公告

昵称：星辰与Python
园龄： 1年2个月
粉丝： 2
关注： 0
+加关注

日历

2025年3月

日

一

二

三

四

五

六

随笔档案

阅读排行榜

评论排行榜

1. 古诗文网模拟登录(1)

2024年1月29日

古诗文网模拟登录

摘要：古诗文网模拟登陆（含验证码识别）一、首先我们需要进如未登录页面（https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx） url = 'https://so.gushiwen.cn/u 阅读全文

posted @ 2024-01-29 12:16 星辰与Python 阅读(60) 评论(1) 推荐(0) 编辑

2024年1月28日

机器学习基础

摘要：机器学习方法概述与数据加载一、机器学习概述机器学习是从已有的观察数据中学习规律，从而获得知识，建立数学模型，并利用模型对新的观察数据做出预测或解释。机器学习的关键是从已有的观察数据中学习模型，并不断调整参数，使模型拟合已有的观察数据，从而建立合适的数学模型。从输入的数据特性来分，机器学习算法大阅读全文

posted @ 2024-01-28 16:08 星辰与Python 阅读(19) 评论(0) 推荐(0) 编辑

2024年1月24日

Pandas数据处理

摘要： Pandas数据处理与分析 Pandas是基于NumPy的一种数据分析工具库。一、数据结构与基本操作目前Pandas主要提供两种数据结构：Series是带标签的一维数组；DataFrame是带标签且大小可变的二维数组。 1.1、Series基础 import numpy as np import 阅读全文

posted @ 2024-01-24 15:03 星辰与Python 阅读(27) 评论(0) 推荐(0) 编辑

2024年1月23日

matplotlib数据可视化

摘要： Matplotlib数据可视化基础一、绘制基本图形 1、绘制折线图 import numpy as np import matplotlib.pyplot as plt #创建数组x x = np.arange(10) np.random.seed(500) #创建数组y y = np.rando 阅读全文

posted @ 2024-01-23 19:44 星辰与Python 阅读(12) 评论(0) 推荐(0) 编辑

2024年1月22日

NumPy数据处理基础

摘要： NumPy数据处理基础一、数据结构 NumPy中主要有多维数组和矩阵结构。 1.1、利用array()函数创建数组 numpy.array(object , dtype=None,*,copy=True,order='K',subok=False,ndmin=0,like=None) object 阅读全文

posted @ 2024-01-22 18:26 星辰与Python 阅读(17) 评论(0) 推荐(0) 编辑

2024年1月21日

Scrapy爬虫框架

摘要：网络爬虫框架：Scrapy Scrapy是一个非常优秀的爬虫框架，通过Scrapy框架，可以非常轻松的实现强大的爬虫系统。一、Scrapy简介 Scrapy主要包括如下6个部分： Scrapy Engine：用来处理整个系统的数据流，触发各种事件。 Scheduler：从URL队列中取出一个URL 阅读全文

posted @ 2024-01-21 11:50 星辰与Python 阅读(18) 评论(0) 推荐(0) 编辑

2024年1月20日

多线程与多进程

摘要：多线程和多进程爬虫在很多场景中，爬虫需要抓取大量的数据，而且需要做大量的分析工作。如果只使用单线程的爬虫，效率会非常低。通常有实用价值的爬虫会使用多线程或多进程，这样可以很多工作同时完成，尤其在多CPU的机器上，执行效率更是惊人。一、线程与进程 1、进程计算机程序有静态和动态的区别。静态的计算阅读全文

posted @ 2024-01-20 20:15 星辰与Python 阅读(5) 评论(0) 推荐(0) 编辑

2024年1月19日

异步与自动化

摘要：异步数据之前爬取的网站基本上都是同步数据，每一页的内容都不需要再次加载，而是通过翻页获取更多数据；其实有很多网站显示在页面上的的数据并不是一次性从服务端获取的，如图像搜索网站，当滚动下拉条时，会随着滚动条向下移动，有更多的图片显示出来。这些图片就是通过异步的方不断从服务端获取的，这就是异步数据。阅读全文

posted @ 2024-01-19 17:32 星辰与Python 阅读(29) 评论(0) 推荐(0) 编辑

2024年1月18日

数据存储

摘要：数据存储一、文件存储为什么需要文件存储？爬虫在抓取数据后，需要对抓取到的这些数据进行分析，分析完之后需要将有用的数据进行保存。保存数据有很多种方式，其中最简单的就是将数据保存在二进制文件或文本文件中。这些文件主要包括XML文件、CSV文件、JSON文件。在对文件进行操作时，涉及到打开文件，读阅读全文

posted @ 2024-01-18 19:51 星辰与Python 阅读(30) 评论(0) 推荐(0) 编辑

2024年1月17日

解析库

摘要：解析库解析库的意思是对我们需要爬取的数据进行操作，从而获得想要的数据。解析库有很多种，我们可以根据自己的习惯进行选取。主要分为以下四种：正则表达式 xpath Beautiful Soup pyquery 一、正则表达式首先讲解正则表达式的使用方法. 1) 元字符元字符匹配内容 . 匹阅读全文

posted @ 2024-01-17 18:31 星辰与Python 阅读(115) 评论(0) 推荐(0) 编辑

导航

搜索

常用链接