随笔 - 82  文章 - 2 评论 - 1 阅读 - 29061
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

最近“20条出台”大家应该都有所了解吧?其中,没有发生疫情的地区严格按照第九版防控方案确定的范围对风险岗位、重点人员开展核酸检测,不得扩大核酸检测范围。一般不按行政区域开展全员核酸检测,只在感染来源和传播链条不清、社区传播时间较长等疫情底数不清时开展。制定规范核酸检测的具体实施办法,重申和细化有关要求,纠正“一天两检”、“一天三检”等不科学做法。

大家都在各个社交平台上发表了关于取消区域全员核酸检测的评论,有人持续,有人反对。今天我们就使用python技术来探究下,针对这个措施大家整体是支持还是反对。现在抖音是最大的社交平台,也是使用人数最多的,那么我们就获取抖音平台上关于这个措施的评论数据,首先通过关键词获取所有“20条”相关视频,然后再获取大家发表的评论数据,因为抖音出了 web 版,抓取数据方便了很多。

滑到网页评论区,在浏览器网络请求里过滤包含comment的请求,不断刷新评论就可以看到评论的接口。

有了接口,就可以写 Python 程序模拟请求,获取评论数据。因为我们请求的数据比较多,而且抖音的风控一直都很严,所以在爬取前先做了应对措施。其中最重要的就是爬虫代理IP的添加,因为现在IP属性功能的出现,网站多IP的要求更高,经过一圈测试对比最后选择了亿牛云代理,接下来就是使用亿牛云代理爬取数据的实现过程:

#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}


# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}

 

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

通过获取的数据分析可以看出,这种防疫措优缺点并存,每个人的看法不一样,但健康是生存的第一要素,只有人人尊守防控疫情规定,充分理解疫情期间的得与失,才能更好的一起抗击疫情。
 
 
 
 
posted on   小橙子11  阅读(173)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
· 使用C#创建一个MCP客户端
点击右上角即可分享
微信分享提示