05 2022 档案

摘要:docker docker介绍,与传统虚拟机比较: docker不需要虚拟硬件和操作系统,轻量级,占用体积小,启动快。 VMware,kvm:底层是在一个很强健的操作系统上虚拟出很多操作系统。 现在使用的很多与服务器就是通过vm或kvm虚拟化出,阿里云,腾讯云再使用opensatck(开源),阿里飞 阅读全文
posted @ 2022-05-15 16:12 谢俊杰 阅读(181) 评论(0) 推荐(0) 编辑
摘要:selenium使用-->可以使用代码控制模拟人操作浏览器 # 如果使用requests模块,发送请求获取的数据不全,它不能执行js # selenium:可以使用代码控制模拟人操作浏览器 ## 操作某个浏览器,就需要有浏览器驱动 # http://npm.taobao.org/mirrors/ch 阅读全文
posted @ 2022-05-10 21:06 谢俊杰 阅读(328) 评论(0) 推荐(0) 编辑
摘要:爬取汽车之家新闻: 地址:https://www.autohome.com.cn/news/ 目的:爬取文章的标题,图片,简介。 在这之前,学习以下bs4:https://www.cnblogs.com/liuqingzheng/p/16005875.html 代码: import requests 阅读全文
posted @ 2022-05-09 15:28 谢俊杰 阅读(177) 评论(0) 推荐(0) 编辑
摘要:长链接转短连接,本质重定向,前提有一个短域名。 前端用户发送请求生成短连接,服务端收到post请求,将长链接存入数据库,返回一个随机字符串拼接在短域名后面给用户,用户下次那个短连接来登录,发送get请求,服务端收到用户输入地址,拿着长链接到后端比较取到长链接地址并重定向。 requests高级用法: 阅读全文
posted @ 2022-05-09 15:28 谢俊杰 阅读(748) 评论(0) 推荐(0) 编辑
摘要:爬虫: 根本就是模拟发送http请求(浏览器需什么,我们携带什么),浏览器响应请求并返回数据,我们再对数据进行清洗即为摘选需要的数据,最后入库。 爬虫协议:robots.txt 举例: https://www.baidu.com/robots.txt https://www.cnblogs.com/ 阅读全文
posted @ 2022-05-07 20:36 谢俊杰 阅读(1248) 评论(0) 推荐(0) 编辑
摘要:爬虫01: 基本介绍,基本使用 爬虫02: 图片,视频 requestsgao高级使用 bs4 selenium,验证码破解,自动登录 阅读全文
posted @ 2022-05-07 20:33 谢俊杰 阅读(35) 评论(0) 推荐(0) 编辑
摘要:获取二进制数据content或者iter_content 用于下载图片,视频。 爬取图片: import requests header = { "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/53 阅读全文
posted @ 2022-05-07 20:30 谢俊杰 阅读(504) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示