随笔分类 - 爬虫
摘要:IP代理池是一种用于网络爬虫、数据挖掘和访问限制突破等应用场景的技术。它通过收集并维护大量的可用IP地址,供需要访问网络资源的应用程序使用。 IP代理池的基本概念 代理服务器 代理服务器是IP代理池的核心。它可以接收客户端的请求,并将请求转发到目标服务器。在请求转发的过程中,代理服务器会替换客户端的
阅读全文
摘要:Java爬虫是一种获取互联网上数据的技术。它可以帮助开发者快速、准确地获取所需数据,为后续的数据分析、挖掘等工作提供了基础。 什么是Java爬虫 Java爬虫是一种网络爬虫技术,它通过编写程序模拟浏览器行为,自动访问网站并抓取所需数据。Java爬虫可以实现自动化采集、处理和存储海量数据,为后续的数据
阅读全文
摘要:Jsoup简介 jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择
阅读全文