摘要:
scrapy的下载中间件的作用:批量拦截整个工程中发起的所有请求和响应 拦截请求: UA伪装: 代理ip: 拦截响应: 拦截异常 #批量拦截所有的请求和响应 class MiddlewearproDownloaderMiddleware(object): #UA池 user_agent_list = 阅读全文
摘要:
1.scrapy的请求传参 使用场景:如果使用scrapy爬取的数据没有在同一张页面中,则必须使用请求传参 使用方法:yield scrapy.Request(url,callback,meta) :callback回调一个函数用于数据解析 :meta用来传递数据 爬虫文件操作: 1.导包 from 阅读全文
摘要:
1.scrapy在windows环境下安装 - 环境的安装: a. pip3 install wheel b. 下载twisted: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twiste 阅读全文
摘要:
数据解析的目的是获取局部的数据 数据解析的方法有正则,xpath,bs4 正则:https://www.cnblogs.com/l1222514/p/11011009.html 正则解析: import re #正则获取定位 可以获取括号里面的内容 ex='xxxxx(.*?)xxxx' re.fi 阅读全文
摘要:
requests模块的get操作 1.导包 import requests 2.get操作的三个参数 requests.get(url,params,headers) url params :get请求携带的参数 heraders:UA伪装 url = 'https://www.sogou.com/ 阅读全文
摘要:
1.Git的介绍 Git 是一个开源的分布式版本控制软件,用以有效、高速的处理从很小到非常大的项目版本管理。 Git 最初是由Linus Torvalds设计开发的,用于管理Linux内核开发。Git 是根据GNU通用公共许可证版本2的条款分发的自由/免费软件,安装参见: http://git-sc 阅读全文
摘要:
数据库的连接 1.首先要在mysql里面创建一个库 >>>mysql #进入mysql >>>show databasess; #查看数据库里面的库 >>>create database orm1; #创建orm1的库 2.settings里面连接数据库 DATABASES = { 'default 阅读全文
摘要:
HTML是什么? 超文本标记语言,是一种用于创建网页的标记语言 文件的扩展名:.html或者.htm HTML不是什么? HTML是一种标记语言,不是变成语言. HTML文档结构 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8 阅读全文