2024 年 2月 22 日随笔档案 - 会秃头的小白

2024年2月22日

摘要： import requests import json if __name__ == '__main__': #制定url url = 'https://movie.douban.com/j/chart/top_list' params = { 'type':'24', 'interval_id': 阅读全文

posted @ 2024-02-22 15:20 会秃头的小白阅读(70) 评论(0) 推荐(0) 编辑

破解百度翻译

摘要： --需求：破解百度翻译 --对应的请求是post请求（携带了参数） --响应数据是一组json数据代码 import requests import json if __name__ == '__main__': #制定url post_url = 'https://fanyi.baidu.co 阅读全文

posted @ 2024-02-22 14:57 会秃头的小白阅读(43) 评论(0) 推荐(0) 编辑

爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）

摘要： #UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求载体的身份标识为某一款浏览器，说明是正常用户通过浏览器发起的正常的请求 # 如果检测到非浏览器发起的请求，则表示请求可能为不正常的请求（爬虫），那么有可能就会拒绝该请求 #UA：User-Agent：（请求身份载体的身份标识）阅读全文

posted @ 2024-02-22 14:17 会秃头的小白阅读(37) 评论(0) 推荐(0) 编辑

requests基础

摘要：笔记 requests模块 - urllib模块 - requests模块 request模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。如何使用：(requests模块的编码流程) - 指定url - 发起请求 - 获取响应数据 - 阅读全文

posted @ 2024-02-22 13:46 会秃头的小白阅读(3) 评论(0) 推荐(0) 编辑

爬虫简介

摘要：爬虫分类：通用爬虫：抓取系统重要组成部分，抓取的是一个整张页面的数据聚焦爬虫：是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容增量式爬虫：检测网站中数据更新的情况，指挥抓取网站中最新更新出来的数据爬虫的矛与盾：反爬机制门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行阅读全文

posted @ 2024-02-22 13:16 会秃头的小白阅读(4) 评论(0) 推荐(0) 编辑

lin513

公告