随笔 - 134,  文章 - 0,  评论 - 0,  阅读 - 21227

一.爬虫的小知识:

我学的爬虫课有:

  1. 樵夫:樵夫
  2. 12800:12800
  3. 用到的正则的练习的网站:正则表达式练习

爬虫是什么?

网络爬虫(Web Spider)又称“网络蜘蛛”或“网络机器人”,它是一种按照一定规则从 Internet 中获取网页内容的程序。

原理:

爬虫程序之所以可以抓取数据,是因为爬虫能够对网页进行分析,并在网页中提取出想要的数据。在学习 Python 爬虫模块前,我们有必要先熟悉网页的基本结构,这是编写爬虫程序的必备知识。

HTML(超文本标记语言)、CSS(层叠样式表)和 JavaScript(简称“JS”动态脚本语言)

准备:

  1. Python语言

  2. Web前端

  3. HTTP协议

  4. 第一个爬虫:

    # 1.服务器渲染:在服务器那边直接把服务器的数据和hrml整合在一起。统一返回给浏览器
    # 2.客户端渲染:第一次请求只要一个html骨架,第二次的请求拿到数据,进行数据展示
    # 在源代码中,拿不到数据
    
    # 熟练使用浏览器的抓包工具
    # HTTP协议(TCP/IP SOAP SMTP 协议)《超文本传输协议》
    # 当前的url遵循规则
    # 1.请求:
    #      请求行-》 请求方式 请求的url地址 协议
    #      请求头 -》 放一些服务器需要使用的附加信息
    #
    #      请求体 -》一般放一些请求的参数
    #  2.状态行-》 协议 状态码(302--重定向)
    #      响应头-》放一些客户端使用一些的附加信息
    #
    #      相应体-》服务器返回的真正客户端要用的内容(HTML,json)
    # 相对重要的
    #    1.user-agent :请求载体的身份标识
    #    2.referer:防盗链(反爬用到)
    #    3.cookie:本地的字符数据信息(用户登录信息 反爬的token)
    #    响应头的一些。。。
    #    1.cookie:本地的字符串数据信息(用户登录反爬的token)
    #    2.各种神奇的字符串(一般都是token,一般放反爬 看经验)
    #  请求方式 GET显示提交 POST (更新)隐示提交
    
    from urllib.request import urlopen
    url = "http://www.baidu.com"
    resp = urlopen(url)
    # print(resp.read().decode('utf-8'))
    with open("baidu.html", mode="w", encoding="utf-8"as f:
        f.write(resp.read().decode('utf-8'))
        print("over")
        resp.close()
    
posted on   Steam残酷  阅读(100)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示