您的位置:首页 > 游戏 > 游戏 > Windows安装和使用Doccano标注工具

Windows安装和使用Doccano标注工具

2024/11/19 9:23:35 来源:https://blog.csdn.net/weixin_42458975/article/details/140358964  浏览:    关键词:Windows安装和使用Doccano标注工具

简介

开源链接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.

Open source annotation tool for machine learning practitioners.

Doccano是一款开源的文本标注工具,由人工智能公司Hironsan开发并在GitHub上发布。它提供了一个直观而功能强大的用户界面,使用户可以轻松地进行文本标注、数据注释和标注项目的管理。Doccano支持多种类型的标注任务,例如命名实体识别、情感分析、文本分类等。

Doccano是Documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为情感分析、命名实体识别、文本摘要、意图识别、插槽填充、图片分类等NLP任务的语料库打标签。

Doccano的特点:

  • 用户友好的界面:Doccano的界面设计简洁直观,无需编程经验即可轻松上手。用户可以通过拖放和选择标签等方式进行标注,同时还提供了实时预览和反馈功能。
  • 多用户协作:Doccano支持多用户协作,团队成员可以共同参与标注项目,并通过评论和讨论功能进行实时沟通和协作。
  • 自定义标签模式:Doccano允许用户自定义标签,以适应不同的标注任务和领域需求。用户可以根据具体情况创建自己的标签集合,并为每个标签定义相应的颜色和含义。
  • 可扩展性:Doccano是开源工具,用户可以根据需要进行自定义扩展和功能添加。此外,它支持多种数据格式的导入和导出,包括JSON、CSV等。

电脑环境

操作系统名称:Microsoft Windows 11 家庭中文版

系统类型:基于 x64 的电脑

电脑已安装了docker desktop和MinGW-w64

关于Docker安装,可以参考windows安装Docker Desktop及国内镜像

MinGW 的全称是:Minimalist GNU on Windows 。它实际上是将经典的开源 C语言 编译器 GCC 移植到了 Windows 平台下,并且包含了 Win32API ,因此可以将源代码编译为可在 Windows 中运行的可执行程序。而且还可以使用一些 Windows 不具备的,Linux平台下的开发工具。更多信息可以访问MinGW官网。MinGW-w64 的代码和可执行文件被托管存储在 SourceForge 上,安装包下载访问: MinGW-w64 - for 32 and 64 bit Windows - Browse /mingw-w64/mingw-w64-release at SourceForge.net

安装和启动

根据Doccano官方介绍,给出了三种安装方式:

  • pip (Python 3.8+)
  • Docker: 通过docker pull直接拉取(下载)镜像
  • Docker Compose:从git仓库下载源码,然后指定环境变量后创建并启动容器。

我的电脑已安装了docker和MinGW-w64,所以直接用较为简单的Docker pull方式安装 Doccano镜像资源。

按照Docker方式安装,步骤如下:

注意一定是在MinGW32窗口运行,不能直接在windows命令行窗口运行,否则即使可以运行下面命令,但是无法启动容器)

(可能原因是:Windows 10 或 Windows 11 专业版或企业版支持运行 Windows 容器,但是Windows 家庭版或教育版仅支持运行 Linux 容器)

1、拉取镜像资源

docker pull doccano/doccano

2、作为一次性设置,按如下方式创建Docker容器

docker container create --name doccano \-e "ADMIN_USERNAME=admin" \-e "ADMIN_EMAIL=admin@example.com" \-e "ADMIN_PASSWORD=password" \-v doccano-db:/data \-p 8000:8000 doccano/doccano

3、接下来,通过运行容器启动doccano:

docker container start doccano

容器已启动,最后在浏览器运行:http://127.0.0.1:8000/

注1:如果要停止容器,请运行

docker container stop doccano-t 5

这是一种优雅停止(Graceful Shutdown)的方式,给它 5 秒的时间来完成任何必要的清理操作。如果 5 秒后容器仍未停止,Docker 将强制停止它。

注2:如果要使用最新功能,请指定nightly标签:

docker pull doccano/doccano:nightly

使用Doccano进行标注任务

进入浏览器运行:http://127.0.0.1:8000/

点击“快速开始”, 会进入到登录页码:

整理的用户名和密码就是我们前面在创建docker容器时,设置的管理员参数(这里只是示例,参数值可以自行修改):

-e "ADMIN_USERNAME=admin" \

-e "ADMIN_EMAIL=admin@example.com" \

-e "ADMIN_PASSWORD=password" \

登录后,我们就可以创建项目,开展我们的标注任务了。

点击创建项目,有下面九种项目类型可以选择,填写:项目名称、描述和Tags(项目标签,它不是标注内容标签),以及勾选标注任务管理相关的选项(是否允许项目成员创建标签类型、文档按顺序还是打散排列、标注结果所有成员共享可见)。

注:如果前端页面展示全部是英文,可以点击右上角的语言选项,设置中文展示。

标注项目创建完后,我们就可以点击项目,进入到了该项目的“数据标注平台”页面。

在该页面,我们可以导入数据集、添加成员、创建或导入任务内容标签、统计和导出结果等。

总结一下,使用Doccano进行标注任务的步骤如下:

  1. 准备数据:将待标注的文本数据导入Doccano,可以是文本文件或数据集。
  2. 创建标注项目:在Doccano中创建一个新的标注项目,并定义标签集合。
  3. 标注文本:使用Doccano提供的界面工具,对文本进行标注。可以选择文本片段、标注对应的标签,并添加注释。
  4. 数据管理和导出:管理标注项目,查看已标注和未标注的文本,进行数据的导入和导出。

NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,在百度PaddleNLP的UIE(通用信息抽取)定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。

上传文件:将文件拖入,点击左下角导入。

参考:

强烈推荐:数据标注平台doccano----简介、安装、使用、踩坑记录

超越传统标注方法:doccano平台提供智能化数据标注解决方案-CSDN博客

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com