crawle web 爬虫&浏览器自动化库

crawle web 爬虫&浏览器自动化库

包含的特性

  • js&ts 支持
  • http 爬取,集成了cheerio 以及jsdom 的解析器
  • 无头浏览器支持
  • 爬取自动proxy 处理
  • 队列以及存储,可以保存文件,快照,json 结果
  • 内部不少方便的工具类,方便数据提取

说明

crawle 同时也提供了python 包,可以方便使用python 周边的集成

参考资料

https://github.com/apify/crawlee

https://crawlee.dev/python/

https://crawlee.dev/docs/introduction/first-crawler

https://github.com/apify/crawlee-python

https://crawlee.dev/

posted on   荣锋亮  阅读(33)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-12-02 cerbos hub 流程参考
2023-12-02 cerbos webassebly 集成简单说明
2020-12-02 johnfercher/maroto fork 版本几个bug 的修复
2020-12-02 johnfercher/maroto 不错的pdf golang pdf 生成工具包
2020-12-02 jung-kurt/gofpdf pdf 生成操作
2020-12-02 griddb 4.5 体验
2020-12-02 griddb 4.5 社区版新特性

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示