04 2019 档案
摘要:1.Scrapy框架简介 1.1 Scrapy框架介绍 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的
阅读全文
摘要:1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的
阅读全文
摘要:1.使用传统方式爬取“斗图啦”网站的图片 #-*-coding = utf-8 -*- import requests from lxml import etree import re import os.path from urllib import request def parse_page(
阅读全文