番号推荐系统bugtag

番号推荐系统

docker运行(推荐)

建立一个目录, 如 bustag, 然后在该目录下建一个子目录 data, data 目录用于保存配置文件以及下载数据的数据库
在data 下需要建立一个文件, config.ini, 该文件用于设置爬取的初始地址, 以及每次下载的最大数量
运行命令
linux, mac
  docker run --rm -d -v $(pwd)/data:/app/data -p 8000:8000 gxtrobot/bustag-app

  windows powershell
  docker run --rm -d -v ${PWD}/data:/app/data -p 8000:8000 gxtrobot/bustag-app

data 目录文件说明
|____bus.db
|____config.ini
|____crontab.txt
|____model
| |____ label_binarizer.pkl
| |____model.pkl

config.ini, (系统配置文件, 必须, 系统启动时候需要此文件, 参考文件)
root_path: 制定bus网站主页地址, 爬虫起始地址, 由于地址可能变化, 确保本机能够访问该地址, 如果需要代理才能访问, 必须开启全局代理, 系统本身无代理设置
count: 每次下载总数, 建议不要太多, 500以下比较好
interval: 每次下载间隔时间, 单位为秒, 建议不要低于1800秒
bus.db (数据库文件, 可选, 但是可以放一个现成的库, 有 2000 条数据, 方便直接开始打标, 不需要等下载)
crontab.txt (定时下载配置文件, 可选, 参考例子)
model 目录(系统训练生成的模型)

mkdir -p  bustag/data
config.ini
[download]
root_path = https://www.busdmm.work
count = 300
interval = 21600

[download]
root_path = https://www.busdmm.work
count = 300
interval = 21600

docker run --rm -d -v $(pwd)/data:/app/data -p 8000:8000 gxtrobot/bustag-app

*/30 * * * * /app/docker/run_download.sh >> /var/log/bustag.log 2>&1
posted @ 2022-07-16 08:52  mvpbang  阅读(13929)  评论(0编辑  收藏  举报