doccano搭建小记
写在前面
doccano是一个给文本进行一系列标记的数据标记平台
下文将简单描述如何搭建doccano,以及遇到的一些坑爹情况
基本环境信息
系统:windows 10
Python版本:3.6.3 (因为是3.6的所以需要打补丁)
数据库:Release 11.2.0.2.0 Production
注:为了避免出现一些权限问题,推荐在带有管理员权限的cmd中执行下面的操作
安装过程
在安装之前,我们需要确保一些基本的依赖软件,如dojano
pip install django
首先,我们用pip命令安装doccano,命令如下:
pip install doccano
在安装的过程中,如果直接进行pip,下载速度可能会很慢,建议换为国内的镜像
安装的过程中,我出现了不少的报错,这是其中一个报错
Command errored out with exit status 1: python setup.py egg_info Che
解该问题的方法有俩,一是安装doccano依赖的软件(比如dojano),二是升级pip
初始化及数据库配置
安装完毕后,我们输入下列指令
# 初始化数据库
doccano init
# 创建一个super user。这里要把pass改成你需要的密码。当然,用户名也可以改成别的。
doccano createuser --username admin --password pass
注意,doccano init将与数据库进行连接,我使用的是oracle数据库,因此需要设置oracle_home环境变量
oracle_home就是oracle数据库的安装目录(到server即可),我的变量是C:\oraclexe\app\oracle\product\11.2.0\server
初始化数据库时,可能会有下列报错信息出现
api.AutoLabelingConfig: (fields.E180) SQLite does not support JSONFields.
我们可以通过替换一个DLL来实现,DLL的下载地址为链接
用压缩包内的sqlite3.dll替换如下路径的sqlite3.dll
替换的DLL路径为python安装路径/DLLs/sqlite3.dll
用户创建
我们需要创建一个用户,否则无法进行数据的存储等工作,命令如下
# admin为用户名,可自行修改
# pass为密码,可自行修改
doccano createuser --username admin --password pass
运行
我们打开两个cmd,分别运行下列代码,即可实现部署
#启动webserver doccano webserver --port 8000 #启动任务队列 doccano task
注意:任务队列一定要记得启动,否则无法上传文件!!!
随后,我们就可以通过浏览器进行访问了
访问的链接为localhost:8000
打开的界面如图所示
一些注意事项
如果你要标记中文的数据,请注意编码格式问题,如果编码格式有问题将会出现报错
当网页很久没有响应时,一般是后台报错了,可以打开cmd窗口看问题在哪
数据标记样例
首先准备若干的标签
然后导入若干的文书(我都是txt格式的,批量的doc-txt转换程序,是chatGPT帮我写的,感谢chatGPT)
标记的场景大致如下: