关于 Scrapy 中自定义 Spider 传递参数问题
实际应用中,我们有可能在启动 Scrapy 的时候自定义一些参数来控制不同的业务流程,Google 尝试了如下方式可以实现 。
修改 Spider 构造函数
class myspider(Spider): # 爬虫名称 name = "myspider" # 构造函数 def __init__(self, tp=None, *args, **kwargs): super(myspider, self).__init__(*args, **kwargs) # scrapyd 控制 spider 的时候,可以向 schedule.json 发送 -d 选项加入参数 self.tp = tp # 开始地址 (与 start_requests 不能同时设置) # start_urls = ['https://www.google.com'] # 定义请求的URL def start_requests(self): if self.tp == 'tp_news_spider': yield self.make_requests_from_url(news_url) else: urls = []
命令行启动
scrapy crawl myspider -a tp=tp_news_spider
使用 Scrapyd 管理 Spider可以向 schedule.json 发送 -d 选项加入参数
curl http://localhost:6800/schedule.json -d project=myproject -d spider=myspider -d setting=DOWNLOAD_DELAY=2 -d tp=tp_news_spider
Cron 控制
public async Task SchedulePollingTaskBackgroundJobAsync() { try { var response = await @"http://172.0.0.1:8080/schedule.json" .WithBasicAuth("user", "pwd") .PostUrlEncodedAsync(new { project = "myproject", spider = "myspider", tp = "tp_news_spider" }) .ReceiveString(); } catch (Exception ex) { } } //http://www.bejson.com/othertools/cronvalidate/ RecurringJob.AddOrUpdate(() => SchedulePollingTaskBackgroundJobAsync(), @"0/15 * * * * ?", TZConvert.GetTimeZoneInfo("Asia/Shanghai"));
REFER:
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】博客园携手 AI 驱动开发工具商 Chat2DB 推出联合终身会员
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 为什么 .NET8线程池 容易引发线程饥饿
· golang自带的死锁检测并非银弹
· 如何做好软件架构师
· 记录一次线上服务OOM排查
· Linux实时系统Xenomai宕机问题的深度定位过程
· 2025年广告第一单,试试这款永久免费的开源BI工具
· 为什么 .NET8线程池 容易引发线程饥饿
· 场景题:假设有40亿QQ号,但只有1G内存,如何实现去重?
· 在 .NET 中使用 Tesseract 识别图片文字
· BotSharp:又一个.Net重磅AI开源项目,.Net在AI领域开始崛起!