一、Python re模块的基本用法:
https://blog.csdn.net/chenmozhe22/article/details/80601971
二、爬取网页图片
https://www.cnblogs.com/jiayongji/p/7118934.html 爬取百度贴吧图片
其中指定爬虫的下载图片位置,注意为反斜杠,
def batchDownloadJPGs(imgUrls, path='D:/test/'):
爬取百度搜索图片
https://blog.csdn.net/qq_40774175/article/details/81273198
三、 第一个Python爬虫——谈心得
https://blog.csdn.net/qq_32740675/article/details/79720367 (没试用)
https://www.cnblogs.com/ranxf/p/7808537.html (requests模块讲解)
https://blog.csdn.net/qq_36119192/article/details/82952442 (Python中的BeautifulSoup模块)
https://blog.csdn.net/suibianshen2012/article/details/61915222 (获取标签<a>中的内容)
如果,标签<a>中含有其他标签,比如<em>..</em>,此时要提取<a>中的数据,需要用k.get_text()
四、爬取movie
https://blog.csdn.net/uupton/article/details/82821297#comments
五、网页登陆
https://www.cnblogs.com/masako/p/7403293.html
————————————————————————
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?