微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

计算熊猫文本列中最常见的短语

如何解决计算熊猫文本列中最常见的短语

我有一个带有文本列的pandas数据框,每个记录有50个短语,每个记录用“ |”分隔我想计算整个数据中的前50个词组。例如,考虑数据中的“文本”列,每行中有4个词组,并用管道分隔。 (实际数据有50个词组)。管道前后的空间。

                                        text
       0    "Andy | max min | tea | pal"
       1    "no limit | toy 2011 | hess | mix"
       2    "Andy | Andy | toy 2011| pal"

如何找到前n个功能?例如,在上面,前3个短语是:

 Andy       3
 toy 2011   2
 pal        2

解决方法

请尝试:

<div class="group-category-1">
    <div class="category-1">Name 1</div>
    <div class="category-1">Name 2</div>
    <div class="category-1">Name 3</div>
</div>

<div class="group-category-2">
    <div class="category-2">Name 1</div>
    <div class="category-2">Name 2</div>
    <div class="category-3">Name 3</div>
</div>

<div class="group-category-3">
    <div class="category-3">Name 1</div>
    <div class="category-3">Name 2</div>
    <div class="category-3">Name 3</div>
</div>
,

这是获得答案的另一种方法。

df['text'].str.lower().str.split('|').explode().str.strip().value_counts().nlargest(3)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。