【爬虫】爬虫基础

1. 爬虫介绍
2. requests模块发送get请求
3. get请求携带参数
4. 携带请求头
5. 携带cookie
6. 发送post请求
7. 响应Response
8. 获取二进制数据
9. 解析解析json

1. 爬虫介绍

1. 爬虫：spider，网络蜘蛛

2. 本质原理：
       现在所有的软件原理：大部分都是基于http请求发送和获取数据的
       pc端的网页
       移动端app
    模拟发送http请求，从别人的服务端获取数据
    绕过反扒：不同程序反扒措施不一样，比较复杂
    
    
3. 爬虫原理
       发送http请求【requests，selenium】----》第三方服务端----》服务端响应的数据解析出想要的数据【selenium,bs4】---》入库(文件，excel，mysql,redis,mongodb。。)
       scrapy:专业的爬虫框架
    
4. 爬虫是否合法
       爬虫协议：每个网站根路径下都有robots.txt，这个文件规定了，该网站，哪些可以爬取，哪些不能爬
    
5. 百度：大爬虫
       百度搜索框中输入搜索内容，回车，返回的数据，是百度数据库中的数据
       百度一刻不停的在互联网中爬取各个页面，链接地址--》爬完存到自己的数据库
       当你点击，跳转到真正的地址上去了
       核心：搜索，海量数据中搜索出想要的数据
       seo：免费的搜索，排名靠前
       sem：花钱买关键字

2. requests模块发送get请求

# 模拟发送http请求的模块：requests 不仅仅做爬虫用它，后期调用第三方接口，也是要用它的
# pip3 install requests	
  本质是封装了内置模块urlib3

    
import requests
res=requests.get('https://www.cnblogs.com/liuqingzheng/p/16005866.html')
print(res.text) # http响应体的文本内容

3. get请求携带参数

# 2 发送get请求携带数据
# 2.1 地址栏中拼接
res=requests.get('https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3')
print(res.text)

# 2.2 使用params参数携带
res=requests.get('https://www.baidu.com/s',params={
    'wd':'美女',
    'name':'lqz'
})
print(res.text)


## url编码和解码
# 美女被url编码后--》
# %E7%BE%8E%E5%A5%B3
# %E7%BE%8E%E5%A5%B3
from urllib import parse
# res=parse.quote('美女')
# print(res)
res=parse.unquote('%E7%BE%8E%E5%A5%B3')
print(res)

4. 携带请求头

# http 请求，有请求头，有的网站，通过某些请求头来做反扒

3 请求头中带数据---->爬取某个网站，不能正常返回，模拟的不像
网站做反扒，没有携带请求头中的客户端类型
User-Agent：客户端类型：有浏览器，手机端浏览器，爬虫类型，程序，scrapy。。一般伪造成浏览器
referer：上次访问的地址：Referer: https://www.lagou.com/gongsi/
    如果要登录，模拟向登录接口发请求，正常操作必须在登录页面上才能干这事，如果没有携带referer，它就认为你是恶意的，拒绝调
    图片防盗链
cookie： 认证后的cookie，就相当于登录了
header={
    # 客户端类型
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
res=requests.get('https://dig.chouti.com/',headers=header)
print(res.text)

5. 携带cookie

# 4 请求中携带cookie#
## 方式一：直接带在请求头中
#模拟点赞
# data={
#     'linkId':'36996038'
# }
# header={
#     # 客户端类型
#     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
#     #携带cookie
#     'Cookie':'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiI3MzAyZDQ5Yy1mMmUwLTRkZGItOTZlZi1hZGFmZTkwMDBhMTEiLCJleHBpcmUiOiIxNjYxNjU0MjYwNDk4In0.4Y4LLlAEWzBuPRK2_z7mBqz4Tw5h1WeqibvkBG6GM3I; __snaker__id=ozS67xizRqJGq819; YD00000980905869%3AWM_TID=M%2BzgJgGYDW5FVFVAVQbFGXQ654xCRHj8; _9755xjdesxxd_=32; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1666756750,1669172745; gdxidpyhxdE=W7WrUDABQTf1nd8a6mtt5TQ1fz0brhRweB%5CEJfQeiU61%5C1WnXIUkZH%2FrE4GnKkGDX767Jhco%2B7xUMCiiSlj4h%2BRqcaNohAkeHsmj3GCp2%2Fcj4HmXsMVPPGClgf5AbhAiztHgnbAz1Xt%5CIW9DMZ6nLg9QSBQbbeJSBiUGK1RxzomMYSU5%3A1669174630494; YD00000980905869%3AWM_NI=OP403nvDkmWQPgvYedeJvYJTN18%2FWgzQ2wM3g3aA3Xov4UKwq1bx3njEg2pVCcbCfP9dl1RnAZm5b9KL2cYY9eA0DkeJo1zfCWViwVZUm303JyNdJVAEOJ1%2FH%2BJFZxYgMVI%3D; YD00000980905869%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee92bb45a398f8d1b34ab5a88bb7c54e839b8aacc1528bb8ad89d45cb48ae1aac22af0fea7c3b92a8d90fcd1b266b69ca58ed65b94b9babae870a796babac9608eeff8d0d66dba8ffe98d039a5edafa2b254adaafcb6ca7db3efae99b266aa9ba9d3f35e81bdaea4e55cfbbca4d2d1668386a3d6e1338994fe84dc53fbbb8fd1c761a796a1d2f96e81899a8af65e9a8ba3d4b3398aa78285c95e839b81abb4258cf586a7d9749bb983b7cc37e2a3; token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNjcxNzY1NzQ3NjczIn0.50e-ROweqV0uSd3-Og9L7eY5sAemPZOK_hRhmAzsQUk; Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1=1669173865'
# }
# res=requests.post('https://dig.chouti.com/link/vote',data=data,headers=header)
# print(res.text)


## 方式二：通过cookie参数：因为cookie很特殊，一般都需要携带，模块把cookie单独抽取成一个参数，是字典类型，以后可以通过参数传入
data={
    'linkId':'36996038'
}
header={
    # 客户端类型
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
}
res=requests.post('https://dig.chouti.com/link/vote',data=data,headers=header,cookies={'key':'value'})
print(res.text)

部署项目出现的可能的问题
     路径问题：ngxin，uwsgi。。。
     数据库用户名密码问题
     前端发送ajax请求问题
     浏览器中访问一下banner接口
     nginx 8080    
     安全组 80  8080 3306
     转到uwsgi的8888，视图类
        
     虚拟环境真实环境都要装uwsgi
     启动uwsgi是在虚拟环境中启动的

6. 发送post请求

##6 发送post请求
data = {
    'username': '616564099@qq.com',
    'password': 'lqz123',
    'captcha': 'cccc',
    'remember': 1,
    'ref': 'http://www.aa7a.cn/',
    'act': 'act_login'
}
res = requests.post('http://www.aa7a.cn/user.php', data=data)
print(res.text)
print(res.cookies)  # 响应头中得cookie，如果正常登录，这个cookie 就是登录后的cookie  RequestsCookieJar：当成字典

# 访问首页，携带cookie，
# res2 = requests.get('http://www.aa7a.cn/', cookies=res.cookies)
res2 = requests.get('http://www.aa7a.cn/')
print('616564099@qq.com' in res2.text)


# 6.2 post请求携带数据 data={} ,json={}   drf后端，打印 request.data
# data=字典是使用默认编码格式：urlencoded
# json=字典是使用json 编码格式
res = requests.post('http://www.aa7a.cn/user.php', json={})


# 6.4 request.session的使用：当request使用，但是它能自动维护cookie
session=requests.session()
data = {
    'username': '616564099@qq.com',
    'password': 'lqz123',
    'captcha': 'cccc',
    'remember': 1,
    'ref': 'http://www.aa7a.cn/',
    'act': 'act_login'
}
res = session.post('http://www.aa7a.cn/user.php', data=data)
res2 = session.get('http://www.aa7a.cn/')
print('616564099@qq.com' in res2.text)

7. 响应Response



import requests
# Response对象，有很多属性和方法
# text
# cookies
    
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
}
respone = requests.get('https://www.jianshu.com', params={'name': 'lqz', 'age': 19},headers=header)
# respone属性
print(respone.text)  # 响应体的文本内容
print(respone.content)  # 响应体的二进制内容
print(respone.status_code)  # 响应状态码
print(respone.headers)  # 响应头
print(respone.cookies)  # 响应cookie
print(respone.cookies.get_dict())  # cookieJar对象，获得到真正的字段
print(respone.cookies.items())  # 获得cookie的所有key和value值
print(respone.url)  # 请求地址
print(respone.history)  # 访问这个地址，可能会重定向，放了它冲定向的地址
print(respone.encoding)  # 页面编码

8. 获取二进制数据

###8 获取二进制数据 ：图片，视频
#
# res = requests.get(
#     'https://upload.jianshu.io/admin_banners/web_images/5067/5c739c1fd87cbe1352a16f575d2df32a43bea438.jpg')
# with open('美女.jpg', 'wb') as f:
#     f.write(res.content)

# 一段一段写

res=requests.get('https://vd3.bdstatic.com/mda-mk21ctb1n2ke6m6m/sc/cae_h264/1635901956459502309/mda-mk21ctb1n2ke6m6m.mp4')
with open('美女.mp4', 'wb') as f:
    for line in res.iter_content():
        f.write(line)

9. 解析解析json

# 前后分离后，后端给的数据，都是json格式，

# 解析json格式

res = requests.get(
    'https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295&region=%E4%B8%8A%E6%B5%B7&query=%E8%82%AF%E5%BE%B7%E5%9F%BA&output=json')
print(res.text)
print(type(res.text))
print(res.json()['results'][0]['name'])
print(type(res.json()))

posted @ 2022-11-23 22:41 |相得益张| 阅读(294) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 【爬虫】 requests高级用法，代理池，爬取视频和新闻

· 【爬虫】加代理，cookie，header，selenium去重，scrapy-redis实现分布式爬虫

· 今日内容爬虫简单学习

· 【2022.11.23】爬虫基础（1）

· 爬虫从入门到入狱(一)

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 别再用vector＜bool＞了！Google高级工程师：这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）

公告

昵称： |相得益张|
园龄： 2年8个月
粉丝： 11
关注： 11

+加关注

2025年3月

日

一

二

三

四

五

六

|相得益张|

人而不学其犹正墙面而立

【爬虫】爬虫基础

1. 爬虫介绍

2. requests模块发送get请求

3. get请求携带参数

4. 携带请求头

5. 携带cookie

6. 发送post请求

7. 响应Response

8. 获取二进制数据

9. 解析解析json

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

|相得益张|

人而不学 其犹正墙面而立

【爬虫】爬虫基础

1. 爬虫介绍

2. requests模块发送get请求

3. get请求携带参数

4. 携带请求头

5. 携带cookie

6. 发送post请求

7. 响应Response

8. 获取二进制数据

9. 解析解析json

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

人而不学其犹正墙面而立