wjx-2005-07-01  
01 2024 档案
  • 模型评估与轨道
    摘要:模型评估与轨道 一、模型评估的基本方法 1.1监督学习下的泛化、过拟合与欠拟合 在有监督的学习过程中,首先在训练数据上学得模型参数来构建模型,然后根据学得的模型,对新数据做出预测。用来训练的数据集称为训练集,用来测试预测结果是否准确的新数据称为测试集。注意:测试集中的数据不能再训练集中出现过。 在训 阅读全文
    posted @ 2024-01-31 21:00 星辰与Python 阅读(20) 评论(0) 推荐(0) 编辑
  • 数据预处理
    摘要:数据预处理 一、特征的离散化 1.1、使用NumPy中的digitize()函数离散化 """ 使用NumPy中的digitize()函数离散化 """ #创建10个标准正态分布的随机数用于实验 import numpy as np np.random.seed(1) x = np.random.r 阅读全文
    posted @ 2024-01-29 21:41 星辰与Python 阅读(6) 评论(0) 推荐(0) 编辑
  • 古诗文网模拟登录
    摘要:古诗文网模拟登陆(含验证码识别) 一、 首先我们需要进如未登录页面(https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx) url = 'https://so.gushiwen.cn/u 阅读全文
    posted @ 2024-01-29 12:16 星辰与Python 阅读(60) 评论(1) 推荐(0) 编辑
  • 机器学习基础
    摘要:机器学习方法概述与数据加载 一、机器学习概述 机器学习是从已有的观察数据中学习规律,从而获得知识,建立数学模型,并利用模型对新的观察数据做出预测或解释。机器学习的关键是从已有的观察数据中学习模型,并不断调整参数,使模型拟合已有的观察数据,从而建立合适的数学模型。 从输入的数据特性来分,机器学习算法大 阅读全文
    posted @ 2024-01-28 16:08 星辰与Python 阅读(18) 评论(0) 推荐(0) 编辑
  • Pandas数据处理
    摘要:Pandas数据处理与分析 Pandas是基于NumPy的一种数据分析工具库。 一、数据结构与基本操作 目前Pandas主要提供两种数据结构:Series是带标签的一维数组;DataFrame是带标签且大小可变的二维数组。 1.1、Series基础 import numpy as np import 阅读全文
    posted @ 2024-01-24 15:03 星辰与Python 阅读(27) 评论(0) 推荐(0) 编辑
  • matplotlib数据可视化
    摘要:Matplotlib数据可视化基础 一、绘制基本图形 1、绘制折线图 import numpy as np import matplotlib.pyplot as plt #创建数组x x = np.arange(10) np.random.seed(500) #创建数组y y = np.rando 阅读全文
    posted @ 2024-01-23 19:44 星辰与Python 阅读(11) 评论(0) 推荐(0) 编辑
  • NumPy数据处理基础
    摘要:NumPy数据处理基础 一、数据结构 NumPy中主要有多维数组和矩阵结构。 1.1、利用array()函数创建数组 numpy.array(object , dtype=None,*,copy=True,order='K',subok=False,ndmin=0,like=None) object 阅读全文
    posted @ 2024-01-22 18:26 星辰与Python 阅读(17) 评论(0) 推荐(0) 编辑
  • Scrapy爬虫框架
    摘要:网络爬虫框架:Scrapy Scrapy是一个非常优秀的爬虫框架,通过Scrapy框架,可以非常轻松的实现强大的爬虫系统。 一、Scrapy简介 Scrapy主要包括如下6个部分: Scrapy Engine:用来处理整个系统的数据流,触发各种事件。 Scheduler:从URL队列中取出一个URL 阅读全文
    posted @ 2024-01-21 11:50 星辰与Python 阅读(18) 评论(0) 推荐(0) 编辑
  • 多线程与多进程
    摘要:多线程和多进程爬虫 在很多场景中,爬虫需要抓取大量的数据,而且需要做大量的分析工作。如果只使用单线程的爬虫,效率会非常低。通常有实用价值的爬虫会使用多线程或多进程,这样可以很多工作同时完成,尤其在多CPU的机器上,执行效率更是惊人。 一、线程与进程 1、进程 计算机程序有静态和动态的区别。静态的计算 阅读全文
    posted @ 2024-01-20 20:15 星辰与Python 阅读(5) 评论(0) 推荐(0) 编辑
  • 异步与自动化
    摘要:异步数据 之前爬取的网站基本上都是同步数据,每一页的内容都不需要再次加载,而是通过翻页获取更多数据;其实有很多网站显示在页面上的的数据并不是一次性从服务端获取的,如图像搜索网站,当滚动下拉条时,会随着滚动条向下移动,有更多的图片显示出来。这些图片就是通过异步的方不断从服务端获取的,这就是异步数据。 阅读全文
    posted @ 2024-01-19 17:32 星辰与Python 阅读(28) 评论(0) 推荐(0) 编辑
  • 数据存储
    摘要:数据存储 一、文件存储 为什么需要文件存储? 爬虫在抓取数据后,需要对抓取到的这些数据进行分析,分析完之后需要将有用的数据进行保存。保存数据有很多种方式,其中最简单的就是将数据保存在二进制文件或文本文件中。这些文件主要包括XML文件、CSV文件、JSON文件。 在对文件进行操作时,涉及到打开文件,读 阅读全文
    posted @ 2024-01-18 19:51 星辰与Python 阅读(29) 评论(0) 推荐(0) 编辑
  • 解析库
    摘要:解析库 解析库的意思是对我们需要爬取的数据进行操作,从而获得想要的数据。 解析库有很多种,我们可以根据自己的习惯进行选取。 主要分为以下四种: 正则表达式 xpath Beautiful Soup pyquery 一、正则表达式 首先讲解正则表达式的使用方法. 1) 元字符 元字符 匹配内容 . 匹 阅读全文
    posted @ 2024-01-17 18:31 星辰与Python 阅读(114) 评论(0) 推荐(0) 编辑
  • 网络库
    摘要:网络库 在学习爬虫过程中,我们需要了解三种基本的网络库。 urllib urllib3 requests 一、urllib网络库 urllib包含四个模块 1、request:最基本的HTTP请求模块,可以用来发送HTTP请求,并接受服务端的响应数据。 2、error:异常处理模块。 3、parse 阅读全文
    posted @ 2024-01-16 16:25 星辰与Python 阅读(68) 评论(0) 推荐(0) 编辑
  • 爬虫基础
    摘要:爬虫基础 一、HTTP与HTTPS的基本原理 任何一个网页的开头都指明了协议,一般协议的开头都是HTTP或者HTTPS。 协议指的就是数据传输协议,也就是数据的传输格式。只要客户端和服务端都遵循这些规范,就可以正常传输数据。 那么HTTP与HTTPS的区别是什么? 主要就是HTTPS传输的数据都是加 阅读全文
    posted @ 2024-01-15 17:08 星辰与Python 阅读(39) 评论(0) 推荐(0) 编辑

 
点击右上角即可分享
微信分享提示