查看一列中的值是否在熊猫数据框中包含％

如何解决查看一列中的值是否在熊猫数据框中包含％

我有一个数据框，其列的值包含％（文字百分号）。我正在尝试创建一个将这些值自动转换为十进制的函数。

例如，使用以下数据框：

       var1        var2      var3     var4
id                                              
0    1.4515       1.52%    -0.5709    4%
1    1.57         1.605%   -0.012     8%
2    1.69253      1.657%   -0.754     9%
3    1.66331      1.686%   -0.0012    5%
4    1.739        1.716%   -0.04      12%
5    1.7447       1.61%    -0.0023    11%


def pct_to_dec(df):
    for col in df:
        print(col)
        if '%%' in df[col].astype(str):
            print(col)
            df[col] = df[col].replace({'%%':''},regex=True)
            df[col] = df[col]/100

该函数应打印var2和var4，并将两列中的值转换为十进制格式。通过故障排除，我发现自从执行此代码以来，python就没有看到百分比字符：

df.isin(['%%'])

它打印一个数据框为“ False”。

最后，我尝试查看我是否使用了错误的转义符。我尝试了%%，/％和\％。我很想知道自己是否走在正确的道路上，以及是否有一种更简单的方法来做自己想做的事情。

解决方法

您可以使用Series方法.str.contains轻松地对此进行检查

它使您可以检查“系列”的哪些行具有传递的字符串。例如，如果您运行以下代码：

df['var2'].str.contains('%')

您将获得一个系列，所有行都等于True。因此，您只需要实现for并获取具有True值的行的索引，然后执行所需的任何操作即可。

请注意，如果您的行不是str类型，则会得到NaN作为返回值，因此请注意列的类型。

您也可以像以下示例一样使用.str.endswith：

for col in df.select_dtypes('object'):
    indexer_percent= df[col].str.endswith('%')
    df.loc[indexer_percent,col]= df.loc[indexer_percent,col].str.strip('%')
    df[col]= df[col].astype('float32')
    df.loc[indexer_percent,col]/= 100.0

根据您的数据，结果为：

       var1     var2    var3  var4
id                                
0   1.45150  0.01520 -0.5709  0.04
1   1.57000  0.01605 -0.0120  0.08
2   1.69253  0.01657 -0.7540  0.09
3   1.66331  0.01686 -0.0012  0.05
4   1.73900  0.01716 -0.0400  0.12
5   1.74470  0.01610 -0.0023  0.11

数据创建者：

import pandas as pd
import io

infile=io.StringIO(
"""id var1        var2      var3     var4
0    1.4515       1.52%    -0.5709    4%
1    1.57         1.605%   -0.012     8%
2    1.69253      1.657%   -0.754     9%
3    1.66331      1.686%   -0.0012    5%
4    1.739        1.716%   -0.04      12%
5    1.7447       1.61%    -0.0023    11%"""
)

df= pd.read_csv(infile,index_col=0,sep='\s+')