如何解决在 Python 中提取和删除大型数据集的停用词
上述大型数据集Dataset有:
- 变量数 10
- 观察次数 568454
- 缺少单元格 43
- 缺少单元格 (%)
我想对“文本”列中的句子执行词干提取和停用词,并将结果保存在新列“词干”中
我使用了以下代码片段,但是处理 Text 列中的整行并获得结果需要很长时间。 (orginal code)
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from nltk import PorterStemmer
stemmer = SnowballStemmer("english")
stop = stopwords.words('english')
finaldata['stemmed'] = df['Text'].apply(lambda x: [stemmer.stem(y) for y in x]) # Stem every word.
finaldata['stemmed'] = finaldata['stemmed'].apply(lambda x: ' '.join([word for word in
x.split() if word not in (stop)]))
是否有其他更有效的方法来执行此操作?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。