Python3 PySpider爬虫框架-命令行

  • pyspider命令行
 1 pyspider all # 启动pyspider
 2 # pyspider [OPTIONS] COMMAND [ARGS] 
 3 # 可以查看https://www.cntofu.com/book/156/command.md
 4 """
 5 TEXT是需要指定的文本字符串,FILENAME文件名,INTEGER数字
 6 Options:
 7   -c, --config FILENAME    指定配置文件名称
 8   --logging-config TEXT    日志配置文件名称,默认: pyspider/pyspider/logging.conf
 9   --debug                  开启调试模式
10   --queue-maxsize INTEGER  队列的最大长度
11   --taskdb TEXT            taskdb的数据库连接字符串, default: sqlite
12   --projectdb TEXT         projectdb的数据库连接字符串, default: sqlite
13   --resultdb TEXT          resultdb的数据库连接字符串, default: sqlite
14   --message-queue TEXT     消息队列连接炙甘草default: multiprocessing.Queue
15   --amqp-url TEXT          [deprecated] amqp url for rabbitmq. please use --message-queue instead.
16   --beanstalk TEXT         [deprecated] beanstalk config for beanstalk queue. please use --message-queue instead.
17   --phantomjs-proxy TEXT   phantomjs使用的代理,ip:port的兴衰
18   --data-path TEXT         数据库存放的路径
19   --version                pyspider的版本
20   --help                   显示帮助信息
21 """
22 # 配置文件模板 pyspider.json
23 pyspider -c pyspider.json all
24 {
25     "taskdb": "mysql+taskdb://username:password@host:port/taskdb",
26     "projectdb": "mysql+projectdb://username:password@host:port/projectdb",
27     "resultdb": "mysql+resultdb://username:password@host:port/resultdb",
28     "message_queue": "amqp://username:password@host:port/%2F",
29     "webui": {
30         "username": "some_name",
31         "password": "some_passwd",
32         "need-auth": true
33         }
34 }
  • pyspider运行processor命令
1 pyspider processor [OPTIONS]
2 """
3  Options:
4    --processor-cls TEXT  Processor使用的类
5    --help                显示帮助信息
6 """
  • pyspider运行webui命令
 1 pyspider webui [OPTIONS]
 2 """
 3 Options:
 4   --host TEXT            运行地址
 5   --port INTEGER         运行端口
 6   --cdn TEXT             js/css的cdn服务器
 7   --scheduler-rpc TEXT   scheduler的xmlrpc路径
 8   --fetcher-rpc TEXT     fetcher的xmlrpc路径
 9   --max-rate FLOAT       每个项目最大的rate值
10   --max-burst FLOAT      每个项目最大的burst值
11   --username TEXT        Auth验证的用户名
12   --password TEXT        Auth验证的密码
13   --need-auth            是否需要验证
14   --webui-instance TEXT  运行时使用的Flash应用
15   --help                 显示帮助信息
16 """
  • pyspider运行scheduler命令
 1 pyspider scheduler [OPTIONS]
 2 """
 3 Options:
 4   --xmlrpc / --no-xmlrpc
 5   --xmlrpc-host TEXT
 6   --xmlrpc-port INTEGER
 7   --inqueue-limit INTEGER  任务队列的最大程度,如果满了则新的任务会被忽略
 8   --delete-time INTEGER    设置为delete标记之前的删除时间
 9   --active-tasks INTEGER   当前活跃的任务数量配置
10   --loop-limit INTEGER     单轮最多调度的任务数量
11   --scheduler-cls TEXT     scheduler使用的类
12   --help                   显示帮助信息
13 """
  • pyspider运行fetcher命令
 1 pyspider fetcher [OPTIONS]
 2 """
 3 Options:
 4   --xmlrpc / --no-xmlrpc
 5   --xmlrpc-host TEXT
 6   --xmlrpc-port INTEGER
 7   --poolsize INTEGER      同时请求的个数
 8   --proxy TEXT            使用的代理
 9   --user-agent TEXT       使用的User-Agent
10   --timeout TEXT          超时时间
11   --fetcher-cls TEXT      Fetcher使用的类
12   --help                  显示帮助信息
13 """
posted @ 2020-08-23 22:09  陨落的星尘  阅读(229)  评论(0编辑  收藏  举报