如何解决NLP:多个块来训练随机森林
我有一个具有以下形式的数据集: dataset = [{'author: XXX,'text': XXX},...,{'author: XXX,'text': XXX}] 我想在每个文本中创建多个大小为 200 的块以进行训练与他们一起随机森林。
一般来说,如果你有一个文本,你可以使用这个函数访问块
text = textwrap.wrap(text,width = 200,break_long_words = False)
但就我而言,我有两个问题:
- 如何在每个文本中访问
- 如何将每个块与其键匹配,键也是分类任务的标签。
我的目标是以数据帧形式创建一个数据集,其中块中的第一列是作者。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。