微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何将 Pandas 的多列文本转换为张量?

如何解决如何将 Pandas 的多列文本转换为张量?

嗨,我正在处理 关键点分析任务,它由 IBM 共享,这里是 link。在给定的数据集中有不止一行文本,任何人都可以告诉我如何将文本列转换为张量并再次将它们分配到同一个数据框中,因为那里还有其他数据列。

enter image description here

问题

这里我面临一个问题,我以前从未见过这种数据,例如有多个文本列,如何将所有这些列转换为张量,然后应用模型。大多数时候数据是这样的:一个文本列 和其他列是标签,例如:电影评论,有毒评论分类

def clean_text(text):
"""
    text: a string

    return: modified initial string
"""
text = text.lower()  # lowercase text
text = REPLACE_BY_SPACE_RE.sub(' ',text)  
text = BAD_SYMBOLS_RE.sub('',text)  
text = text.replace('x','')
#    text = re.sub(r'\W+','',text)
text = ' '.join(word for word in text.split() if word not in STOPWORDS) 
return text

解决方法

如果我问对了你的问题,你会像下面这样: Prior Data

new Set()

这会将句子转换为标记数组。

enter image description here

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。