上一页 1 2 3 4 5 6 7 8 ··· 22 下一页
摘要: g对象 g对象就是一个容器,能够多次取值 阅读全文
posted @ 2020-01-05 18:12 chanyuli 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 信号 信号就相当于是埋点,在执行到send这个方法的时候,就会执行信号中注册的函数。 一共有两个原生的信号:request_started 和 request_finished。 信号和请求扩展的区别再去,请求扩展是在响应函数前执行的函数,信号是在请求扩展之前执行的函数。从源码中可以看出来。 自定义 阅读全文
posted @ 2020-01-05 18:10 chanyuli 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 源码粗略分析 阅读全文
posted @ 2020-01-05 18:09 chanyuli 阅读(149) 评论(0) 推荐(0) 编辑
摘要: flask是一个轻量级框架,它默认依赖2个外部库: Jinja2 模板、 WSGI工具集 Werkzeug 。 flask的使用特点是基本所有的工具使用都依赖于导入的形式去扩展,flask只保留了web开发的核心功能。 通常:我们学习一个web框架只需要学会 如何使用路由、如何使用视图函数与模板语法 阅读全文
posted @ 2020-01-05 18:07 chanyuli 阅读(160) 评论(0) 推荐(0) 编辑
摘要: MongoDB MongoDB是一款强大、灵活、且易于扩展的通用型数据库。 1、易用性 2、易扩展性 3、丰富的功能 4、卓越的性能 MongoDB基础知识 .jpg) 从上面的图中可以看出,集合就相当于关系型数据库的表,文档就是记录等等 集合就是一组文档。如果将MongoDB中的一个文档比喻为关系 阅读全文
posted @ 2020-01-03 19:45 chanyuli 阅读(271) 评论(0) 推荐(0) 编辑
摘要: ```python import requests from bs4 import BeautifulSoup import re from mysql_control import MySQL # 爬虫三部曲 # 1.发送请求 def get_html(url): response = requests.get(url) return response # 2.解析数据 def parse_da 阅读全文
posted @ 2020-01-02 19:10 chanyuli 阅读(155) 评论(0) 推荐(0) 编辑
摘要: ```python import requests import re import uuid from concurrent.futures import ThreadPoolExecutor pool = ThreadPoolExecutor(50) # 爬虫三部曲 # 1.发送请求 def get_html(url): print(f'start: {url}...') response = 阅读全文
posted @ 2020-01-02 19:09 chanyuli 阅读(186) 评论(0) 推荐(0) 编辑
摘要: ```python import requests import re headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' } # 爬虫三部曲 # 1.发送请求 def get 阅读全文
posted @ 2020-01-02 19:06 chanyuli 阅读(245) 评论(2) 推荐(0) 编辑
摘要: reques补充 Response的属性 bs4五种过滤器 阅读全文
posted @ 2020-01-02 19:05 chanyuli 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 模拟登录是一件比较简单的事情,但是如果目标网站做了一些反爬措施,那么这个过程就不那么简单了。 如何模拟登陆github 在写爬虫代码之前一定要先分析http的请求流程,并且要成功登陆,观察需要带一些什么参数。 发现有两个我们没有自带的参数,一个是authenticity_token,另一个是time 阅读全文
posted @ 2019-12-31 19:16 chanyuli 阅读(663) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 22 下一页