随笔分类 - Python
摘要:用 ord() 函数 也就是这样 `ord('a')`->`97`
阅读全文
摘要:[toc] # 主窗口 `QMainWindow`就是主窗口,`QMainWindow` 提供了更多的特性,如菜单栏、工具栏、状态栏和停靠窗口等,它是为复杂的主窗口应用设计的。`QMainWindow` 继承自 `QWidget`,所以 `QMainWindow` 不仅可以使用 `QWidget`
阅读全文
摘要:[toc] # 基础流程 如下,就可以实现一个最基础的窗口,但也只有一个窗口: ``` import sys from PyQt5.QtWidgets import QApplication, QWidget if __name__ == '__main__': app = QApplication
阅读全文
摘要:基于session和cookies 代码 import requests from urllib.parse import urljoin # 定义基础 URL 和登录、首页 URL BASE_URL = 'https://login2.scrape.center/' LOGIN_URL = url
阅读全文
摘要:aiohttp库使用流程 导入 aiohttp 库,并创建一个信号量,用于限制并发数量。 定义索引页面和详情页面的URL,以及每页的大小和总页数。 创建一个异步函数 scrape_api,用于爬取指定URL的数据。 创建一个异步函数 scrape_index,用于爬取指定页码的索引数据。 使用 as
阅读全文
摘要:大概流程 在网页找目标Ajax 破解Ajax规律 定义Ajax的URL,爬取Ajax的数据 其实跟普通爬虫差别不大,只不过爬的对象从看到的网页变成了Ajax链接而已。 只要找到Ajax链接,就可以很轻易的爬取下来了。 全部代码 import requests import logging loggi
阅读全文
摘要:启用 Middleware 图中内容原本是注释的,去掉注释即可 'middlewares.'后面接的是middle类的名字,是可以改的。 改成如图的形式就算启用指定名称的 middleware 了。 函数详解 这两个函数不用动,保持默认就好 def from_crawler(cls, crawler
阅读全文
摘要:定义一个 item 参数要设置为 file_urls 和 files 调用时 files 可以不写,有默认值 class PipelineFilepipelines(scrapy.Item): file_urls = scrapy.Field() files = scrapy.Field() 启用默
阅读全文
摘要:pipelines 的使用 在 pipelines.py 中创建 pipelines 的类。(也可用默认存在的类) class PipelinesTest: def process_item(self, item, spider): print(item) return item 编写数据处理的函数
阅读全文
摘要:Spider 的用法 变量 # 名字,要求全局唯一 name = 'douban' # 运行爬取的网址 allowed_domains = ['movie.douban.com'] # 开始时爬取的 URL start_urls = ['https://movie.douban.com/top250
阅读全文
摘要:安装就么得了,如果pip install不行的话,我曾遇到过的原因是,因为版本过低。所以升级一下Python版本就行了,如果其他安装还是不行的话,那就只能上网搜了。 从0爬取豆瓣 TOP250 电影榜单 ~~这个例子好像很经典,很多大佬都用来举例,我也用一下吧3.3~~ 大概的一个规划 初始准备工作
阅读全文

浙公网安备 33010602011771号