Python 爬虫 - 随笔分类 - 云--澈

Scrapy 组件的具体用法

摘要：一、Spider 用法在 Scrapy 中，要抓取网站的链接配置、抓取逻辑、解析逻辑都是在 Spider 里完成的。Spider 的一些基础属性和基础方法： name ：爬虫名字，Spider的名字定义了 Scrapy 是如何定位并初始化 Spider的，必须是唯一的。例如爬取 mywebsi 阅读全文

posted @ 2019-02-09 21:39 云--澈阅读(361) 评论(5) 推荐(0)

Scrapy 框架入门

摘要：一、介绍 Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间耦合较低，扩展性和灵活强，是目前 Python 中使用最广泛的爬虫框架。 1. 架构示意图；它分为以下几个部分： Engine ：引擎，处理整个系统的数据流处理、阅读全文

posted @ 2019-02-09 11:02 云--澈阅读(217) 评论(0) 推荐(0)

Python 爬虫爬取今日头条街拍上的图片

摘要：``` Python # 今日头条--街拍 import requests from urllib.parse import urlencode import os from hashlib import md5 from multiprocessing.pool import Pool # 根据 offset 得到每一个 ajax 请求返回的 json def get_json(offset... 阅读全文

posted @ 2019-01-09 15:08 云--澈阅读(505) 评论(0) 推荐(0)

云--澈

随笔分类 - Python 爬虫

公告