爬的没意识了--1

https的相关的理解操作
三种联系的方法:1.直接传,2.公钥+私钥,3.对应的证书
基于网络请求的模块
关于requests模块的作用
是属于在python里面原装的
掌握了requests就相当于掌握了爬虫的半壁江山
手动在python里面添加requests
这样就搭建好了环境
超级简单的爬虫
可以将你爬过来的代码转换成正常的样子
之前长这样
一.项目查找搜索后的界面
UA伪装:将自己的一个地址伪装成一个浏览器,这样就不会被网站给拒绝访问
所以咱们爬的时候要将这个放到我们的浏览器里面去
爬取成功
之前把那个params的s忘记打了一直报错
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | # -*- codeing = utf-8 -*- # @Time : 2022/9/6 14:03 # @File :sosuohode.py # @Software: PyCharm # 实现在pc里面获取想要查找的网页的界面 import requests if __name__ = = "__main__" : # UA伪装 headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.27' } # 第一步获取初始的网页信息 url = 'https://www.sogou.com/web' # 第二部实现可以自动更改query kw = input ( "输入你要查的数据" ) param = { 'query' :kw } # 发起请求,这个打印不出来的 response = requests.get(url = url,params = param,headers = headers) # print(response) # 获取信息 page_text = response.text fileName = kw + '.html' with open (fileName, 'w' ,encoding = 'utf-8' )as fp: fp.write(page_text) print (fileName, "完成保存" ) # 这一步我们要进行一个反爬操作UA伪装 |
二.爬取百度翻译
获取整个页面的部分信息【即翻译出来的那一部分】
全部里面就是全部的请求
具体代码
这样子就可以只获取需要的部分
json.dump()方法就是将python获取到的数据转换成json字符串的形式,当然要使用这个方法首先要这个获取到的是json格式的才行
三.爬取豆瓣电影
参数数据所在的位置
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 | # -*- codeing = utf-8 -*- # @Time : 2022/9/6 21:10 # @Name : 王星 # @File :doban.py # @Software: PyCharm import requests import json if __name__ = = '__main__' : # 放入地址【指的是刷新的时候弹出来的地址】 url = 'https://movie.douban.com/j/chart/top_list' param = { 'type' : '24' , 'interval_id' : '100:90' , 'action' :'', 'start' : '20' , 'limit' : '20' } header = { 'User-Agent' : 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 104.0.0.0Safari / 537.36' } response = requests.get(url = url,params = param,headers = header) # 因为数据是json格式的 list_data = response.json() fp = open ( './doban.json' , 'w' ,encoding = 'utf-8' ) json.dump(list_data,fp = fp,ensure_ascii = False ) print ( "over!!!!!!" ) |
爬取豆瓣的代码
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构