随笔分类 - Python 爬虫
摘要:一、Spider 用法 在 Scrapy 中,要抓取网站的链接配置、抓取逻辑、解析逻辑都是在 Spider 里完成的。Spider 的一些基础属性和基础方法: name :爬虫名字,Spider的名字定义了 Scrapy 是如何定位并初始化 Spider的,必须是 唯一 的。例如爬取 mywebsi
阅读全文
摘要:一、介绍 Scrapy 是一个基于 Twisted 的 异步处理 框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间耦合较低,扩展性和灵活强,是目前 Python 中使用 最广泛的爬虫框架 。 1. 架构示意图; 它分为以下几个部分: Engine :引擎,处理整个系统的数据流处理、
阅读全文
摘要:``` Python # 今日头条--街拍 import requests from urllib.parse import urlencode import os from hashlib import md5 from multiprocessing.pool import Pool # 根据 offset 得到每一个 ajax 请求返回的 json def get_json(offset...
阅读全文