doccano搭建小记

写在前面

doccano是一个给文本进行一系列标记的数据标记平台

下文将简单描述如何搭建doccano,以及遇到的一些坑爹情况

基本环境信息

系统:windows 10

Python版本:3.6.3 (因为是3.6的所以需要打补丁)

数据库:Release 11.2.0.2.0 Production

注:为了避免出现一些权限问题,推荐在带有管理员权限的cmd中执行下面的操作

安装过程

在安装之前,我们需要确保一些基本的依赖软件,如dojano

pip install django

首先,我们用pip命令安装doccano,命令如下:

pip install doccano

在安装的过程中,如果直接进行pip,下载速度可能会很慢,建议换为国内的镜像

安装的过程中,我出现了不少的报错,这是其中一个报错

 Command errored out with exit status 1: python setup.py egg_info Che

解该问题的方法有俩,一是安装doccano依赖的软件(比如dojano),二是升级pip

 

初始化及数据库配置

安装完毕后,我们输入下列指令

# 初始化数据库
doccano init

# 创建一个super user。这里要把pass改成你需要的密码。当然,用户名也可以改成别的。
doccano createuser --username admin --password pass

注意,doccano init将与数据库进行连接,我使用的是oracle数据库,因此需要设置oracle_home环境变量

oracle_home就是oracle数据库的安装目录(到server即可),我的变量是C:\oraclexe\app\oracle\product\11.2.0\server

初始化数据库时,可能会有下列报错信息出现

api.AutoLabelingConfig: (fields.E180) SQLite does not support JSONFields.

我们可以通过替换一个DLL来实现,DLL的下载地址为链接

用压缩包内的sqlite3.dll替换如下路径的sqlite3.dll

替换的DLL路径为python安装路径/DLLs/sqlite3.dll

 

用户创建

我们需要创建一个用户,否则无法进行数据的存储等工作,命令如下

# admin为用户名,可自行修改
# pass为密码,可自行修改
doccano createuser --username admin --password pass

运行

我们打开两个cmd,分别运行下列代码,即可实现部署

#启动webserver
doccano webserver --port 8000

#启动任务队列
doccano task

注意:任务队列一定要记得启动,否则无法上传文件!!!

 

随后,我们就可以通过浏览器进行访问了

访问的链接为localhost:8000

打开的界面如图所示

 

 

一些注意事项

如果你要标记中文的数据,请注意编码格式问题,如果编码格式有问题将会出现报错

当网页很久没有响应时,一般是后台报错了,可以打开cmd窗口看问题在哪

 

数据标记样例

首先准备若干的标签

 

 然后导入若干的文书(我都是txt格式的,批量的doc-txt转换程序,是chatGPT帮我写的,感谢chatGPT)

标记的场景大致如下:

 

 

posted @ 2023-01-31 10:22  AlphaInf  阅读(843)  评论(0编辑  收藏  举报