如何解决在 csv 文件的 Prodigy 中运行 ner.manual
我是 Prodigy 的新手,还没有完全弄清楚范式。 对于一个项目,我想手动注释文本中的名称。我的团队开发了我们自己的模型来识别名称,所以我只想使用带注释的文本(由 Prodigy 制作)作为我们模型的黄金标准。
为此,我有一个 csv 文件 texts.csv
,其中一列中有文本。我是否需要将此文件转换为 json,或者我也可以在 csv 文件上运行 Prodigy?
此外,使用此数据集启动 ner_manual
需要运行哪些代码?
我想,我必须从:
!python -m prodigy ner.manual
但是,我不清楚我应该如何运行其余部分。有人可以帮我解决这个问题吗?
解决方法
文件格式
我相信对于标有“文本源”的食谱,您可以使用 jsonl、json、csv 或 txt(请参阅“文本源”部分:https://prodi.gy/docs/api-loaders)。 Ner.manual 说“文本源”,所以我认为它应该有效。 (参考:https://prodi.gy/docs/recipes#ner-manual)
ner.manual
关于运行 ner.manual 尝试查看此文档 https://prodi.gy/docs/
文档包含一个很好的例子:
python -m prodigy ner.manual ner_news_headlines blank:en ./news_headlines.jsonl --label PERSON,ORG,PRODUCT,LOCATION
- ner_news_headlines 是数据集的名称(可以任意命名)
- blank:en 是一个空白的英文模型
- ./news_headlines.jsonl 是您将要注释的 jsonl 文件的名称(使用您的文件的任何文件名)
- PERSON、ORG、PRODUCT、LOCATION 是您将用来注释数据的标签(将这些更改为您想要使用的任何标签,确保用逗号而不是空格分隔)
我对 prodigy 也很陌生,所以其他人可能有更好的答案。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。