上一页 1 2 3 4 5 6 7 8 9 ··· 58 下一页
摘要: # 登录 -> 得到cookie # 带着cookie去访问 -> 得到数据 # 必须得把上面两个操作连起来 # 我们可以使用session进行请求 -> session 你可以认为是一连串的请求,在这个过程中的cookie不会丢失 说一说过程中遇到的问题: 刚开始我按着视频做的时候他没有heade 阅读全文
posted @ 2024-02-28 20:03 会秃头的小白 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 架构漫谈: 首先是什么是架构,读完之后我自己的对架构的理解就是一种为了方便人们解决问题的一种方案,具体是怎么方便解决问题的呢? 总结下来:先对问题进行分析,再对问题进行切分,由不同的人进行不同的工作,然后使这些部分有机的结合为一个整体,这就是架构,是一个方便解决问题的过程。 接下来,我们谈为什么会产 阅读全文
posted @ 2024-02-28 17:26 会秃头的小白 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取 异步爬虫的方式: - 多线程,多进程(不建议) 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行 弊端:无法无限制的开启多线程或者多进程 - 线程池 进程池 好处:我们可以降低创建线程和销毁线程的频率,从而降低系统的开 阅读全文
posted @ 2024-02-27 17:04 会秃头的小白 阅读(19) 评论(0) 推荐(0) 编辑
摘要: from lxml import etree import requests #爬取所有城市名称 if __name__ == '__main__': url = 'https://www.aqistudy.cn/historydata/' headers = { 'User-Agent':'Moz 阅读全文
posted @ 2024-02-26 21:23 会秃头的小白 阅读(13) 评论(0) 推荐(0) 编辑
摘要: from lxml import etree import requests import os # 爬取彼岸图库中的图片数据 if __name__ == '__main__': #爬取到页面源码数据 url = 'https://pic.netbian.com/4kmeinv/' headers 阅读全文
posted @ 2024-02-26 18:37 会秃头的小白 阅读(10) 评论(0) 推荐(0) 编辑
摘要: from lxml import etree import requests # 爬取58二手房 if __name__ == '__main__': #爬取到页面源码数据 url = 'https://m.58.com/bj/ershoufang/?reform=pcfront&PGTID=0d0 阅读全文
posted @ 2024-02-26 18:03 会秃头的小白 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 笔记 xpath解析原理: - 数据解析原理: -1.实例化一个etree对象,且将页面源码数据加载到该对象中 -2.调用etree对象中xpath方法,编写xpath表达式,提取数据 - 环境安装: - pip install lxml - 实例化一个etree对象: from lxml impo 阅读全文
posted @ 2024-02-26 17:16 会秃头的小白 阅读(7) 评论(0) 推荐(0) 编辑
摘要: bs4解析原理: - 数据解析原理: -1.标签定位 -2.提取标签,标签属性中存储的数据值 - bs4数据解析的原理: -1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 -2.通过调用BeautifulSoup对象中相关的属性或者方法,就可以获取页面中需要解析的数据 阅读全文
posted @ 2024-02-25 00:22 会秃头的小白 阅读(4) 评论(0) 推荐(0) 编辑
摘要: import requests import os import re if __name__ == '__main__': # 创建一个文件夹,保存所有的图片 if not os.path.exists("./pictureS"): os.mkdir("./pictureS") # 解析图片的ur 阅读全文
posted @ 2024-02-24 01:39 会秃头的小白 阅读(6) 评论(0) 推荐(0) 编辑
摘要: import requests if __name__ == '__main__': url = 'https://5b0988e595225.cdn.sohucs.com/images/20200102/59a5cc9a208249c6b4a58a8287f50485.jpeg' img_data 阅读全文
posted @ 2024-02-23 18:01 会秃头的小白 阅读(20) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 58 下一页