python爬虫

6.request-xhr

xhr 二次请求的数据

随便看一个请求

有了这三个就可以写爬虫了注意这种链接比较长的

可以把他参数写在字典里？后面就是提交的参数

import requests

url= "https://movie.douban.com/j/search_subjects"
parms ={
    "type": "movie",
    "tag": "豆瓣高分",
    "page_limit": "50",
    "page_start": "0"
}
res = requests.get(url,params=parms)
print(res.request.url)
print("https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&page_limit=50&page_start=0")

可以这两个地址是一样的

如果拼接好的地址获取不到数据

首先要判断是不是ua有问题

5.request-post

4.request 入门

进一步简化 urllib.response

使用方法

pip install request

pycharm 命令行安装

对于没用使用过pycharm 的同学也不用纠结

什么pip 包啊源啊什么virtualenv啊先找个教程学着

学习曲线怎么平滑怎么来

果然还是碰到了问题

命令行安装了 requests 导入包发现找不到

搜了下发现时因为一开始用pycharm 设置的是virtualenv

所以需要重新在pycharm的设置里面重新下载request

file —> setting —>project —> project —> interprefer —>点击+ —>搜索 requests

ok 第一个坎过了

如果出现了反扒拦截

需要把请求伪装成浏览器的get请求

Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36 Edg/88.0.705.81

import requests
# url = "http://188977.com"
url="https://www.baidu.com/s?wd=vergin"
# head={ "User-Agent":"Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36 Edg/88.0.705.81"}
# res = requests.get(url,headers=head)
res = requests.get(url) 
# 如果不处理head  不会返回网页数据
print(res)
print(res.text)

3.http协议

请求方式

GET:显式提交常用查询东西

POST:隐式提交上传一些数据

2.web 请求过程剖析

1.手刃一个爬虫


from urllib.request import urlopen
url="http://www.baidu.com"
response= urlopen(url)
# 响应包括响应头等等
# print(resp.read().decode("UTF-8"))

with open("baidu.html",mode="w")  as f:
    f.write(response.read().decode("UTF-8"))
print("over")

posted @ 2022-05-07 18:30 张喆坤阅读(62) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Pytest+BDD实践

· 测试工具 jenkins/docker/jmter

· 03、Python爬虫程序说明

· 自学Python爬虫笔记（day2）

· python爬虫基础

张喆坤

https://gitee.com/zhangzhekun/Showmethecode

python爬虫

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

最新评论