gudegg/yunSpider:百度云网盘爬虫

项目简介

yunSpider是一个用于百度云网盘的爬虫项目。它可以获取百度云网盘中的用户订阅、粉丝、分享等信息。项目由Go语言编写,其中Go占比90.1%,TSQL占比9.9%。

项目安装与使用

安装方面,需要先安装go并设置gopath,然后将项目克隆到gopath目录并安装依赖,如goget github.com/go - sql - driver/mysql等。还需要修改config.ini配置文件中的MySQL和Redis配置(Redis可不配,不配或错误时会有默认操作防止重复爬取用户)。创建名为baidu的database并执行baidu.sql,之后就可以运行gorun spider.go(也可编译后运行,注意config.ini文件的处理),还提供了直接下载编译好的版本使用的方式,不同系统有不同的运行方式,如linux下chmod + x spider,然后直接./spider运行或者以后台方式运行,win系统下直接点击spider.exe运行。

数据获取与注意事项

在获取数据方面,对于不同类型的数据有不同的链接。例如分享专辑链接类型、普通文件或者文件夹类型等都有对应的链接格式。获取用户订阅、粉丝、分享也都有各自的链接,但要注意在获取用户订阅和粉丝时每次请求一次休眠2s可无限制请求,对ip没要求;获取用户分享比较特殊,pc版一个ip只能请求10次且休眠无用,而手机版可以一次性连续请求60次,60次后需休眠35s左右再继续请求,不过手机版只能请求网页源码然后用正则进行匹配。并且在进行上面3个连接请求时必须带上Referer。

项目总结

yunSpider项目为获取百度云网盘相关数据提供了有效的工具,方便使用者对百度云网盘的用户相关信息以及文件分享等信息进行爬取。欢迎大家留言讨论关于这个项目的使用心得或者遇到的问题等。

项目地址

gudegg/yunSpider:百度云网盘爬虫

posted @   gnuorg  阅读(70)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
点击右上角即可分享
微信分享提示