如何解决如何使用Pandas替换含义相同的数据字符串但键入方式不同并将未成年人的数字转换为主要字符串
例如,
我有一个具有许多属性的大型数据集。假设该列之一是带有20个标签的职业列。让我们拿一个标签,第一副工程师。
由于数据集是结构化的,并且由于收集数据的方式的不同,对于职业一线工程师将以多种形式出现,例如“第一办公室工程师”,“第一级工程师”。
我的问题是,用Python将所有1st Officer Engineer(包括其他版本)重命名为一个通用版本的最佳方法是什么?谢谢!
解决方法
首先,您可以创建如下字典:
di = {"First Office Engineer": "1st Officer Engineer","1st Off. Engineer": "1st Officer Engineer","1st Officer Engineer":"1st Officer Engineer"}
并简单地映射熊猫中的值:
df.test.map(di)
其中
测试
是列的名称。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。