10 2018 档案
摘要:版本一(基于类视图APIView类) views.py: APIView是继承的Django View视图的。 serializers.py from rest_framework import serializers #导入序列 from .models import User #导入表 版本二(
阅读全文
摘要:爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip。爬取第二层url时验证码出现次数更严重(和第一层验证码完全不一样),一开始也用更换代理,但是感觉不怎么解决问题,后来利用selenium自动打开该页面,并把验证码图片抓取下来,然后发现抓下来的并不是页面中的真实验证码,估计是网站加密的原因。后...
阅读全文
摘要:第一:函数作用域: L:local 函数内部作用域 E:enclosing 函数内部与内嵌函数之间(闭包) G:global 全局作用域 B:build_in 内置作用域 L > E > G > B 优先级比较 第二:闭包函数: 定义:如果内部函数引用了外部作用域(不是全局作用域)的变量,那么此时内
阅读全文
摘要:python 面向对象十一 super函数 super函数用来解决钻石继承。 一、python的继承以及调用父类成员 父类: class Base(object): def __init__(self): print("base init.") 普通方法调用父类: class Leaf(Base):
阅读全文
摘要:我们经常在抓取数据是碰到 数据重复的问题,除了radis数据库去重功能外,还有一种简便的过滤方法, 来来 我们直接上代码: pipelines.py中:
阅读全文
摘要:newspaper用于爬取各式各样的新闻网站 1,安装newspaper 2,直接上代码
阅读全文
摘要:开发环境:Python 3.6.0 版本 (当前最新)Scrapy 1.3.2 版本 (当前最新) 请求和响应 Scrapy的Request和Response对象用于爬网网站。 通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该
阅读全文
摘要:spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co
阅读全文
摘要:如果连接直接这样写,看上去很直观,不过参数替换不是很方便,而且看着不舒服 https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20 可以使用如下方式美化代码 from
阅读全文
摘要:首先是安装python-docx:(centos环境) pip install python-docx 基本方法使用: from docx import Document from docx.shared import Pt from docx.oxml.ns import qn from docx
阅读全文
摘要:这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子,用于修改
阅读全文