之前有和大家分享过利用爬虫技术赚取外快的文章,在一些爬虫群里面也会经常看到大家交流关于利用爬虫兼职赚外快的话题,大家在这方面的热情还是蛮大的,但是有部分人技术无法满足兼职需求。在了解了一些大家的技术情况后我进行了总结归纳,我认为大致可以分为三种情况。1、有python基础 2、没有python基础 3、正在学习python。
在分析了大家的技术状态之后,这里可以给有需要的同学一些建议,如果想要快速进阶接到单子,就不得不提到爬虫学习的重点环节——网站反爬虫策略及其应对方案。各种网站都会有反爬虫措施,尤其是一线大厂的绝密反爬虫技术,一直以来都是爬虫学习者面临的最大难题。这里是常见的高效反爬虫措施。常见的反爬措施有以下这些:
1、目标检测到爬虫行为封了IP
2、目标返回了加密过的数据
3、目标返回了脏数据,无法辨认
4、目标网站必须登录才能访问
5、一些动态渲染,爬虫无法读取
6、目标网站有验证码无法访问
综上这些才是真正阻止大家爬取数据接单赚钱的,所以搞不定反爬虫,就赚不到钱。不过也不用担心这些都是可以通过学习和实践解决的,例如网站封IP,我们就可以通过加入优质代理IP去解决,网上有很多的代理云服务商,比较靠谱的有亿牛云,有需要的可以去咨询下www.16yun.cn。这里也给有需要的同学分享下爬虫中代理的使用方式
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 周边上新:园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
· 使用C#创建一个MCP客户端