微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将数据集CONLL 格式拆分为开发、训练和测试

如何解决将数据集CONLL 格式拆分为开发、训练和测试

我有一个遵循 CONLL 格式的数据集,带有令牌级注释。

token   label
Also    O,O
outdoor B-claim
activities  I-claim
enable  I-claim
me  I-claim
to  I-claim
socialize   I-claim
with    I-claim
other   I-claim
people  I-claim
and I-claim
enjoy   I-claim
natural I-claim
beauty  I-claim
.   O
                    
There   O
are O
strong  O
advantages  O
to  O
spend   O
leisure O
time    O
outdoors    O
.   O

空行分隔文档的句子。每个句子都被视为机器学习模型中的实例。我想将数据集拆分为训练、测试和开发,但要确保数据集之间没有拆分句子。 python中是否有任何库可用于拆分此类数据集,还是必须手动执行此操作?

提前致谢!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。