browserless + dremio 的数据爬虫方案
数据爬虫的玩法很多,框架也不少,对于实际开发我们会面临不少问题,比如存储,分析,数据使用,爬虫站点的分析处理,动态proxy 池
以下是一个简单的集成
参考架构
- 基于自定义爬虫开发的
自己开发爬虫任务,基于调度对于任务基于容器运行,对于部分web 数据的爬取处理可以使用browserless ,数据存储可以到db或者s3 中
对于之后的分析基于dbt 模型开发语义层服务,之后基于dremio 提供的标准api (sql,arrow flight ,odbc,rest) 提供数据服务
- 直接复用现有框架的
比如基于scrapy,是一个很不错而且功能比较完备的爬虫框架,之后的一些套路与上边的类似
说明
以上只是一些简单说明,使用好各种数据工具,以及框架可以快速解决我们不少问题,基于s3 存储数据的好处时候我们可以进行灵活的数据存储(按需,安全,快速),dremio 可以提供方便的数据查询以及加速分析能力,以上对于调度部分说明的比较少,实际可选的方案还是很多的,比如airflow(python 友好),其他调度工具(xxl-job) 也是可选的,对于实际大规模的我们可以利用k8s 容器调度能力,实现灵活的弹性处理
参考资料
https://docs.browserless.io/
https://docs.dremio.com/
https://scrapy.org/
https://docs.getdbt.com/reference/references-overview
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2022-07-04 hasura graphql-engine 源码构建问题
2022-07-04 使用rocky linux 运行hasura graphql-engine
2020-07-04 sql 数据定时发送webhook golang 服务
2020-07-04 hcl v2 golang使用参考
2019-07-04 chef test-kitchen Could not load the 'vagrant' driver from the load path 问题解决
2018-07-04 prisma graphql 工具基本使用
2018-07-04 postgraphile 基本试用