BeanFadeAway

label studio导出CoNLL格式后处理数据

一、label studio使用

     最近在做命名实体识别的东西,需要进行数据标注,一开始用的doccano。doccano的启动需要开启两个终端,一个是打开webserver的端口,另一个是任务队列,稍微比较麻烦;另外用doccano标注时的体验不是很顺手,所以就转而使用label studio了。

  我参考了这位“农民工”同学的博客:命名实体识别(NER)标注神器——Label Studio 简单使用_PeasantWorker的博客-CSDN博客_命名实体识别标注工具

二、CoNLL格式数据的处理

  标注完update然后export为CoNLL格式的文件,打开后发现标签带有‘-X-_’:

  

 

   于是用了replace函数的替换效果来删除字符串,注意路径里的斜杠,之前遇到过报错。一开始想直接替换'-X-_'四个字符没成功,就分两步删除了。

path = "D:/.../pro.CONLL"
lineList =[]
file = open(path, "r", encoding='utf-8') # 以只读模式读取文件
while 1:
line = file.readline()
if not line:
print("End or Error.")
break
reline = line.replace('-X-','')
# reline = reline.replace('-X-_','')
reline = reline.replace('_','')

lineList.append(reline)

file.close()
file = open(r'D:/.../testDel.txt','w', encoding='utf-8')
for i in lineList:
file.write(i)
file.close()

posted on 2022-05-19 23:14  BeanFadeAway  阅读(434)  评论(0编辑  收藏  举报

导航