2018 年 10月随笔档案 - lvye001

Django-DRF-视图的演变

摘要：版本一（基于类视图APIView类） views.py： APIView是继承的Django View视图的。 serializers.py from rest_framework import serializers #导入序列 from .models import User #导入表版本二（阅读全文

posted @ 2018-10-31 19:15 lvye001 阅读(663) 评论(3) 推荐(4) 编辑

requests利用selenium,代理Ip,云打码，验证码抠图操作爬取搜狗微信公众号内容

摘要：爬取思路，爬取搜狗微信公众号内容，爬取第一层url时请求太快出现验证码，我这里用的蘑菇云代理，并在程序中我判断什么情况下是否＋代理，做到合理运用代理ip。爬取第二层url时验证码出现次数更严重(和第一层验证码完全不一样)，一开始也用更换代理，但是感觉不怎么解决问题，后来利用selenium自动打开该页面，并把验证码图片抓取下来，然后发现抓下来的并不是页面中的真实验证码，估计是网站加密的原因。后... 阅读全文

posted @ 2018-10-29 22:25 lvye001 阅读(1617) 评论(0) 推荐(0) 编辑

python函数作用域，闭包，装饰器

摘要：第一：函数作用域： L：local 函数内部作用域 E：enclosing 函数内部与内嵌函数之间（闭包） G：global 全局作用域 B：build_in 内置作用域 L > E > G > B 优先级比较第二：闭包函数：定义：如果内部函数引用了外部作用域（不是全局作用域）的变量，那么此时内阅读全文

posted @ 2018-10-26 19:41 lvye001 阅读(152) 评论(0) 推荐(0) 编辑

python 面向对象十一 super函数

摘要：python 面向对象十一 super函数 super函数用来解决钻石继承。一、python的继承以及调用父类成员父类： class Base(object): def __init__(self): print("base init.") 普通方法调用父类： class Leaf(Base): 阅读全文

posted @ 2018-10-24 20:29 lvye001 阅读(148) 评论(0) 推荐(0) 编辑

scrapy中通过set()方法进行数据过滤去重

摘要：我们经常在抓取数据是碰到数据重复的问题，除了radis数据库去重功能外，还有一种简便的过滤方法，来来我们直接上代码： pipelines.py中: 阅读全文

posted @ 2018-10-23 19:34 lvye001 阅读(889) 评论(0) 推荐(0) 编辑

python3使用newspaper快速抓取任何新闻文章正文

摘要：newspaper用于爬取各式各样的新闻网站 1，安装newspaper 2,直接上代码阅读全文

posted @ 2018-10-23 11:14 lvye001 阅读(1845) 评论(0) 推荐(0) 编辑

Scrapy爬虫入门Request和Response（请求和响应）

摘要：开发环境：Python 3.6.0 版本（当前最新）Scrapy 1.3.2 版本（当前最新）请求和响应 Scrapy的Request和Response对象用于爬网网站。通常，Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象，该阅读全文

posted @ 2018-10-20 11:22 lvye001 阅读(1242) 评论(0) 推荐(0) 编辑

scrapy 爬取天猫商品信息

摘要：spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co 阅读全文

posted @ 2018-10-20 11:21 lvye001 阅读(1936) 评论(0) 推荐(0) 编辑

Python爬虫：带参url的拼接

摘要：如果连接直接这样写，看上去很直观，不过参数替换不是很方便，而且看着不舒服 https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20 可以使用如下方式美化代码 from 阅读全文

posted @ 2018-10-20 11:20 lvye001 阅读(3508) 评论(0) 推荐(0) 编辑

使用python-docx生成Word文档

摘要：首先是安装python-docx：（centos环境） pip install python-docx 基本方法使用： from docx import Document from docx.shared import Pt from docx.oxml.ns import qn from docx 阅读全文

posted @ 2018-10-20 11:18 lvye001 阅读(865) 评论(0) 推荐(0) 编辑

Python爬虫从入门到放弃之 Scrapy框架中Download Middleware用法

摘要：这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候，所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子，用于修改阅读全文

posted @ 2018-10-20 11:12 lvye001 阅读(207) 评论(0) 推荐(0) 编辑

lvye001

10 2018 档案

公告

搜索

随笔分类

随笔档案

阅读排行榜

推荐排行榜

最新评论