大数据总结

这一周学了很多东西啊.在这一周我写了很多博客。我这周学习了HiveServer2服务 - 阿飞藏泪 - 博客园 (cnblogs.com)。还实操了springboot vue前后端分离项目如何上传云端。

也学习了JWT令牌。也学了一些java爬虫。

JWT (JSON Web Token) 是一种用于在网络应用中传递信息的开放标准(RFC 7519)。它以 JSON 格式表示,并经过数字签名或加密以保证信息的完整性和安全性。JWT 主要用于身份验证和授权方面,可以用于安全地传输自包含的信息。
JWT 由三部分组成:头部(Header)、载荷(Payload)和签名(Signature)。
头部(Header)包含描述 JWT 的元数据和加密算法信息,通常由两部分组成:令牌类型(例如 "JWT")和所使用的签名算法(例如 "HS256" 或 "RS256")。
载荷(Payload)是 JWT 的主要内容部分,包含一组声明(claims)作为信息的有效载荷。这些声明可以包括身份数据、权限信息或其他任何需要传递的数据。载荷分为三类声明:注册声明(Registered Claims)、公共声明(Public Claims)和私有声明(Private Claims)。
签名(Signature)是使用头部中指定的算法通过对头部、载荷和秘钥进行签名生成的一串字符。签名通过验证来确保 JWT 的完整性和真实性,并防止篡改。
使用 JWT 的常见场景是身份验证。当用户成功登录后,服务器可以生成一个 JWT 并将其返回给客户端。客户端将 JWT 存储在本地,然后在后续的请求中,在请求头或其他指定位置将 JWT 添加到请求中以进行身份验证。服务器验证 JWT 的签名,并根据其中的声明来确认用户的身份和权限。
通过使用 JWT,可以实现无状态的身份验证系统,因为服务器不需要在后端存储会话信息。每个请求都包含完整的验证信息,服务器可以直接验证 JWT 的有效性,从而降低了服务器的负载并提高了扩展性。

WebMagic 是一个轻量级的Java开源网络爬虫框架,它提供了强大的抓取能力和灵活的扩展机制。使用WebMagic,你可以方便地编写爬虫程序来获取互联网上的数据。
以下是WebMagic的一些特点和功能:

1.简单易用:WebMagic 提供了简洁的 API,你可以通过几行代码就能编写一个爬虫程序。
2.灵活的抓取策略:WebMagic支持多种抓取策略,可以根据需求设置抓取频率、抓取深度、超时处理等。
3.动态配置:你可以通过配置文件或代码来动态配置爬虫的行为,包括爬取目标、请求头、抓取规则等。
4.丰富的自定义扩展:WebMagic提供了可扩展的插件机制,你可以编写自定义的处理器、解析器、管道等来处理抓取结果。
5.内置的解析支持:WebMagic内置了常见的解析器,如XPath和CSS选择器,方便你提取目标数据。
6.异步处理:WebMagic采用异步的方式进行页面下载和处理,提高了爬取效率。
7.分布式支持:WebMagic可以与分布式调度系统(如Apache Storm)结合使用,支持分布式爬取任务的调度和管理。
8.支持多种存储方式:WebMagic可以将抓取结果存储到数据库、文件系统或其他存储介质中,方便后续的数据分析和处理。

中文官网:http://webmagic.io/docs/zh/posts/ch1-overview/

posted @ 2023-07-15 19:48  阿飞藏泪  阅读(7)  评论(0编辑  收藏  举报
1 2 3
4