摘要: #!/usr/bin/env python # -*- encoding: utf-8 -*- # @Time : 2022/2/8 0008 12:25 # @Author : Tzy0425 # @File : Pandas入门.py import pandas as pd import num 阅读全文
posted @ 2022-02-09 11:48 Sunshine_y 阅读(46) 评论(0) 推荐(0) 编辑
摘要: NumPy两种基本对象: ndarray:储存单一数据类型的多维数组,相当于一系列同类型数据的集合,集合中元素的索引以0下标为开始。 ufunc:是一种能够对数组每个元素进行运算的函数,运算速度非常快。一、ndarray的创建 import numpy as np # 输出3行4列的数组(矩阵),从 阅读全文
posted @ 2022-02-07 20:30 Sunshine_y 阅读(47) 评论(1) 推荐(1) 编辑
摘要: 前言:这算是一个比较综合的案例,理清了该案例会感到最近学的知识变的很条例、很清晰。需求是爬取五大板块对应的新闻标题以及每个标题对饮的新闻内容。 (一)分析网易页面 对于首页,通过定位发现每个板块都是嵌套在<ul>中,以单独的<li>存在。 点击每个板块,进去后发现页面是这样加载的: 说明每个板块的新 阅读全文
posted @ 2022-01-29 10:31 Sunshine_y 阅读(285) 评论(0) 推荐(1) 编辑
摘要: 请求传参 使用场景:如果解析的数据不在同一个页面中(深度爬取)。 举个例子:假如我们首先爬取了首页数据,然后再解析详情页数据,如何操作? 1 # 解析首页的岗位名称 2 def parse(self, response): 3 li_list = response.xpath('//*[@id="m 阅读全文
posted @ 2022-01-27 21:19 Sunshine_y 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 先说明一下五大组件各自的作用: 引擎(Scrapy) 用来完成整个系统的数据流处理,触发事务(框架核心)。 调度器(Scheduler) 包括两部分:过滤器和队列,用来接受引擎发过来的请求,先经过过滤器对请求进行去重,然后压入队列中,可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列,由它 阅读全文
posted @ 2022-01-26 16:40 Sunshine_y 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 方法一:基于终端指令 说明:只可以将parse()的返回值存储到本地的文件中,而且存储的文本文件的类型只能为:'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle' 指令:终端输入命令,scrapy crawl xxx -o file 阅读全文
posted @ 2022-01-26 16:25 Sunshine_y 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 环境的安装 — mac 和 Linux的不要太轻松,直接:pip install scrapy — windows相比而言可是麻烦不少,分以下几部分安装: (1)pip install wheel (2)下载Twisted,下载地址为 http://www.lfd.uci.edu/~gohlke/p 阅读全文
posted @ 2022-01-25 09:57 Sunshine_y 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 携程旅行实现自动登录还是有点麻烦的,我们先看官网: 不用多说,肯定需要先进行标签定位,定位到红框处,通过click()实现跳转,来到了下面的页面: 这里的话,先标签定位到输入用户名和密码的地方,然后通过send_keys()可以输入用户名和密码,这里很简单,然后定位到滑块,定义个动作链,再通过cli 阅读全文
posted @ 2022-01-24 17:18 Sunshine_y 阅读(549) 评论(0) 推荐(0) 编辑
摘要: selenium处理iframe - 如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id) - 动作链(拖动):from selenium.webdriver import ActionChains - 实例化一个动作链对象:action = ActionCha 阅读全文
posted @ 2022-01-23 16:32 Sunshine_y 阅读(86) 评论(0) 推荐(0) 编辑
摘要: selenium模块简单介绍 selenium是基于浏览器自动化的一个模块,可以便捷的获取网站中的动态加载数据,便捷的实现模拟登录。 使用流程 1、下载一个浏览器的驱动程序(笔者下载的是谷歌驱动程序) 玩什么浏览器就下载什么样的驱动程序,下载路径与驱动程序和浏览器版本对应关系的链接如下: http: 阅读全文
posted @ 2022-01-23 12:47 Sunshine_y 阅读(486) 评论(0) 推荐(0) 编辑