随笔档案

爬虫急速进阶学习

之前有和大家分享过利用爬虫技术赚取外快的文章，在一些爬虫群里面也会经常看到大家交流关于利用爬虫兼职赚外快的话题，大家在这方面的热情还是蛮大的，但是有部分人技术无法满足兼职需求。在了解了一些大家的技术情况后我进行了总结归纳，我认为大致可以分为三种情况。1、有python基础 2、没有python基础 3、正在学习python。
在分析了大家的技术状态之后，这里可以给有需要的同学一些建议，如果想要快速进阶接到单子，就不得不提到爬虫学习的重点环节——网站反爬虫策略及其应对方案。各种网站都会有反爬虫措施，尤其是一线大厂的绝密反爬虫技术，一直以来都是爬虫学习者面临的最大难题。这里是常见的高效反爬虫措施。常见的反爬措施有以下这些：
1、目标检测到爬虫行为封了IP
2、目标返回了加密过的数据
3、目标返回了脏数据，无法辨认
4、目标网站必须登录才能访问
5、一些动态渲染，爬虫无法读取
6、目标网站有验证码无法访问
综上这些才是真正阻止大家爬取数据接单赚钱的，所以搞不定反爬虫，就赚不到钱。不过也不用担心这些都是可以通过学习和实践解决的，例如网站封IP，我们就可以通过加入优质代理IP去解决，网上有很多的代理云服务商，比较靠谱的有亿牛云，有需要的可以去咨询下www.16yun.cn。这里也给有需要的同学分享下爬虫中代理的使用方式

#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}

# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

posted on 2022-03-22 16:38 小橙子11 阅读(69) 评论(0) 编辑收藏举报

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

最新评论

爬虫急速进阶学习