新一代爬虫平台!不写代码即可完成爬虫...
大家好,我是 Java陈序员
。
今天,给大家介绍一个优秀的爬虫平台,无需编写代码,只要通过简单的流程配置,即可实现爬虫。
关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。
项目介绍
spider-flow
—— 新一代爬虫平台,以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台。
功能特性:
- 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
- 支持JSON/XML/二进制格式
- 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
- 支持爬取JS动态渲染(或ajax)的页面
- 支持代理
- 支持自动保存至数据库/文件
- 常用字符串、日期、文件、加解密等函数
- 支持插件扩展(自定义执行器,自定义方法)
- 任务监控,任务日志
- 支持HTTP接口
- 支持Cookie自动管理
- 支持自定义函数
平台还支持 Redis、MongoDB 等多种插件,可参考对应的插件文档进行集成。
❗❗❗注意:请友善使用
spider-flow
,遵守蜘蛛协议,不要将spider-flow
用于任何非法用途。
功能截图
爬虫列表
爬虫流程图配置
爬虫Debug调试
爬虫定时任务设置
任务通知
爬虫日志
全局变量
自定义函数
数据源管理
快速开始
1、拉取代码
git clone https://github.com/ssssssss-team/spider-flow.git
2、创建数据库
CREATE DATABASE `spiderflow` DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;
3、将项目以 Maven 工程的形式导入到 IDEA
4、修改目录下 spider-flow/spider-flow-web/src/main/resources
的配置文件 application.properties
中的数据库连接信息
## 数据库用户名
spring.datasource.username=root
## 数据库密码
spring.datasource.password=root
## 数据库连接地址
spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true
5、执行主启动类 org.spiderflow.SpiderApplication
启动项目
6、浏览器访问
http://localhost:8088/
spider-flow
作为一个以流程驱动爬虫的平台,其中的代码实现值得我们深入学习。
❗❗❗注意:请友善使用
spider-flow
,遵守蜘蛛协议,不要将spider-flow
用于任何非法用途。
最后,贴上项目地址:
https://github.com/ssssssss-team/spider-flow
最后
推荐的开源项目已经收录到 GitHub
项目,欢迎 Star
:
https://github.com/chenyl8848/great-open-source-project
或者访问网站,进行在线浏览:
https://chencoding.top:8090/#/
大家的点赞、收藏和评论都是对作者的支持,如文章对你有帮助还请点赞转发支持下,谢谢!
分类:
Github
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
2022-05-30 Prometheus + Grafana 搭建监控系统