随笔 - 82  文章 - 2 评论 - 1 阅读 - 29061
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

海南疫情还在迅速发展,在三亚宣布全市社区封闭式管理后,海口市也于7日晚宣布全市实行临时性全域静态管理。7日,话题#一家13人滞留三亚酒店住一晚万元#登上热搜,引发热议。在三亚住宿真的这么贵?之后,三亚文华东方酒店同意按照政府规定,以此前预订价格的半价收费续住,那很多的网友都是通过app订购的酒店,app上的价格和柜台价格有差别,不知道按照半价是否都是统一按照半价呢?

还有网友发现很多酒店有先提价后打折的趋势,这个属实让人觉得过分了,尤其是在疫情前。那么我们今天就利用python去一探究竟,本文主要通过获取携程网上三亚有关酒店价格信息进行分析看下是否真的有提价后打折的事。

在爬取之前我发现很多新手一般都有一个共有的误区,就是他们觉得爬虫都是 “通用” 的,一个网站的爬虫拿过来,网址改一下,再随便撺吧撺吧就可以爬另一个网站了。

实际上,每一个网站的爬取都是需要单独进行分析的,你需要找到目标数据是在网页上的什么位置,是通过静态还是动态的方式加载进去的,网站是否有难搞的反爬虫措施,等等,从而来制定自己爬虫的爬取策略。比如携程网封IP就比较严,这样的前提下我们就需要有足够的IP去访问,代理IP的来源也很简单,网上有很多代理商,选择一家靠谱的就可以。比如这次使用到的亿牛云代理的隧道IP,代理在爬虫程序里面的实现过程如下:

#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}


# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}

 

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

很多网站的反爬机制随时都在升级,也是侧面反映了网站收到各种爬虫爬取的困扰很大。希望大家在爬取数据时,随时
posted on   小橙子11  阅读(125)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
· 使用C#创建一个MCP客户端
点击右上角即可分享
微信分享提示