基于数据帧中的子字符串提取字符串的一部分 - python

如何解决基于数据帧中的子字符串提取字符串的一部分 - python

我正在尝试提取一些 NBA 数据,但我的数据框有一列,其中所有统计数据都在一个字符串中,在 Stats 列中用空格分隔,如图所示:例如。 29pt 15rb 3as 1bl ...等。我想提取每个统计数据的值,以便我有一列用于得分、篮板、助攻、盖帽等。我遇到的问题是某些行可能不包含所有统计数据。例如,如果一名球员没有得到任何助攻,他们在 Stats 列中的值可能如下所示:14pt 3rb 2bl。我无法提取每个统计数据所需的值,特别是如果该玩家不存在该统计数据。我试图拆分字符串,以便将其值放入一个列表中,这很有希望,但如果该玩家的统计数据甚至存在,我仍然无法弄清楚如何获取每个统计数据的值。任何建议、想法或指导将不胜感激。谢谢。

SM

解决方法

我们可以通过使用 Series.str.findall 来提取值(正则表达式解释为 here),然后将其转换为 dict,我们将其重新转换为具有统计数据的 DataFrame列标签和值。

>>> import pandas as pd
>>> s = pd.Series(["29pt 15rb 3as 1bl","14pt 3rb 2bl"])
>>> s
# 0    29pt 15rb 3as 1bl
# 1         14pt 3rb 2bl
>>> df = pd.DataFrame(
    s.str.findall(r"(\d+)(\w+)")
    .apply(lambda y: {k: v for v,k in y})
    .to_list()
)
>>> df = df.apply(pd.to_numeric)
>>> df
#    pt  rb   as  bl
# 0  29  15  3.0   1
# 1  14   3  NaN   2

然后可以将此 DataFrame 合并到您原始的索引匹配项上。


s.str.findall(r"(\d+)(\w+)")

这一行应用了正则表达式 r"(\d+)(\w+)",它定义了两个捕获组(括号 ())。第一个捕获组查找数字 (\d+),第二个捕获组查找单词字符(\w+,相当于 [a-zA-Z0-9_])。使用 findall 返回元组列表,例如

"29pt 15rb 3as 1bl" => [('29','pt'),('15','rb'),('3','as'),('1','bl')]

接下来,.apply(lambda y: {k: v for v,k in y}) 被链接起来,在每一行上应用 lambda 函数。此函数将元组列表转换为字典,其中键是上述元组 (pt,rb,...) 中的第二个元素,值是数字。

[('29','bl')]
# becomes
{'pt': '29','rb': '15','as': '3','bl': '1'}

最后,.to_list() 将我们的 pd.Series 转换为一个 dict 列表,我们可以使用它来创建一个可与原始数据合并的 DataFrame。


† 由于 \w+ 是匹配任何字母、数字或下划线的贪婪标记,因此最好使用 [a-zA-Z]+ 代替,它只会匹配字母。

,

也许是这样的?

def parse_stat(stat):
    """takes 29pt and returns (int stat_value,str stat) as (29,"pt")"""
    i = 0
    while i < len(stat) and stat[i].isdigit():
        i += 1
    return int(stat[:i]),stat[i:]

def parse(string):
    substrings = string.split(' ')
    stats = {}
    for sub in substrings:
        val,stat = parse_stat(sub)
        stats[stat] = val
    return stats


if __name__ == "__main__":
    string = "9pt 15rb 3as 1bl"
    result = parse(string)
    print(result)
    print(result.get("pt",0))
    print(result.get("fake",0))
In: "9pt 15rb 3as 1bl"
Out: {'pt': 9,'rb': 15,'as': 3,'bl': 1}
In: result.get("pt",0)
Out: 9
In: result.get("fake",0)
Out: 0

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res