摘要: 使用谷歌无头浏览器 from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_option = Options() chrome_option.add_argument('- 阅读全文
posted @ 2020-09-15 23:50 straightup 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 单线程+多任务异步协程 协程 在函数(特殊函数)定义的时候,使用async修饰,函数调用后,内部语句不会立即执行,而是会返回一个协程对象 任务对象 任务对象=高级的协程对象(进一步封装)=特殊的函数 任务对象必须要注册到时间循环对象中 给任务对象绑定回调:爬虫的数据解析中 事件循环 当做是一个装载任 阅读全文
posted @ 2020-09-15 23:45 straightup 阅读(385) 评论(0) 推荐(0) 编辑
摘要: """ 目标:爬取梨视频世界板块的视频并下载到本地 分析:数据为动态加载的 """ import requests from lxml import etree import re import os dirName = './videoLibs' if not os.path.exists(dir 阅读全文
posted @ 2020-09-14 07:51 straightup 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 代理 代理服务器,可以接受请求后将其转发,从而更换我们请求所对应的ip 匿名度 高匿:啥也不知道 匿名:服务器会知道我使用了代理但是不知道我的真实ip 透明:服务器会知道我使用了代理并且知道我的真实ip 类型 http:意味着这个服务器只能转发http协议的请求 https:只能转发https协议的 阅读全文
posted @ 2020-09-14 07:49 straightup 阅读(260) 评论(0) 推荐(0) 编辑
摘要: # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.html import requests from lxml import etree import os d 阅读全文
posted @ 2020-09-14 07:06 straightup 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 图片的爬取 import requests headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 S 阅读全文
posted @ 2020-09-14 07:03 straightup 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 爬取药监总局中相关企业的详情信息 http://scxk.nmpa.gov.cn:81/xk/ 需求分析 确定页面中相关数据是否为动态加载 相关的企业信息为动态加载 通过抓包工具全局搜索定位到动态加载数据的数据包,提取到相关的url和请求参数 post:http://scxk.nmpa.gov.cn 阅读全文
posted @ 2020-09-13 08:26 straightup 阅读(378) 评论(0) 推荐(0) 编辑
摘要: requests模块初识 什么是requests模块? python中封装好的一个基于网络请求的模块 requests模块的作用是什么? 模拟浏览器发请求 requests模块的环境安装: pip install requests requests模块的编码流程: 1.指定url(输入网址) 2.发 阅读全文
posted @ 2020-09-13 08:20 straightup 阅读(377) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫? - 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程 爬虫的分类: 通用爬虫 抓取一整张网页的数据 聚焦爬虫 抓取页面的局部数据 增量式爬虫 用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据 反爬机制 针对门户网站,阻止爬虫爬取 反反爬策略 针对爬虫程序员, 阅读全文
posted @ 2020-09-13 07:51 straightup 阅读(98) 评论(0) 推荐(0) 编辑
摘要: Form组件 功能: 1.生成页面可用的HTML标签 2.对用户提交的数据进行校验 3.保留上次输入内容 生成标签 views.py写法 views.py: from django import forms class MyForm(forms.Form): # 普通输入框 name = forms 阅读全文
posted @ 2020-08-11 07:45 straightup 阅读(239) 评论(0) 推荐(0) 编辑