随笔分类 -  爬虫

摘要:IP代理池是一种用于网络爬虫、数据挖掘和访问限制突破等应用场景的技术。它通过收集并维护大量的可用IP地址,供需要访问网络资源的应用程序使用。 IP代理池的基本概念 代理服务器 代理服务器是IP代理池的核心。它可以接收客户端的请求,并将请求转发到目标服务器。在请求转发的过程中,代理服务器会替换客户端的 阅读全文
posted @ 2023-08-23 08:27 残城碎梦 阅读(282) 评论(0) 推荐(0) 编辑
摘要:---- 阅读全文
posted @ 2023-08-22 11:32 残城碎梦 阅读(43) 评论(1) 推荐(0) 编辑
摘要:Java爬虫是一种获取互联网上数据的技术。它可以帮助开发者快速、准确地获取所需数据,为后续的数据分析、挖掘等工作提供了基础。 什么是Java爬虫 Java爬虫是一种网络爬虫技术,它通过编写程序模拟浏览器行为,自动访问网站并抓取所需数据。Java爬虫可以实现自动化采集、处理和存储海量数据,为后续的数据 阅读全文
posted @ 2023-08-22 08:45 残城碎梦 阅读(407) 评论(0) 推荐(0) 编辑
摘要:Jsoup简介 jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择 阅读全文
posted @ 2023-08-21 11:12 残城碎梦 阅读(214) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示