微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

NLP 的天赋:为什么 MIT 电影语料库比原始数据集有更多的标签?

如何解决NLP 的天赋:为什么 MIT 电影语料库比原始数据集有更多的标签?

我有一个与用于自然语言处理的 flair 框架相关的问题: 我正在尝试为 NER 任务加载简单的 MIT 电影语料库。但是,我的输出包含以 ES 开头的标签,例如 E-SONGS-ACTOR 等。虽然原始数据集包含 BIO 格式的数据。

from flair.datasets import MIT_MOVIE_NER_SIMPLE
# load simple movie NER corpus
corpus_MIT = MIT_MOVIE_NER_SIMPLE()
print(corpus_MIT)
print(corpus_MIT.make_tag_dictionary('ner'))

输出

Corpus: 8797 train + 978 dev + 2443 test sentences
Dictionary with 52 tags: <unk>,O,B-ACTOR,E-ACTOR,S-YEAR,S-TITLE,B-GENRE,I-GENRE,E-GENRE,B-DIRECTOR,E-DIRECTOR,S-GENRE,B-SONG,I-SONG,E-SONG,S-ACTOR,B-PLOT,I-PLOT,E-PLOT,S-PLOT,B-CHaraCTER,E-CHaraCTER,S-rating,B-ratingS_AVERAGE,E-ratingS_AVERAGE,B-TITLE,E-TITLE,S-SONG,I-TITLE,B-rating

有人可以向我解释这一点吗? 提前致谢!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。