微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用Pandas重新格式化用户输入不一致的日期

如何解决使用Pandas重新格式化用户输入不一致的日期

我正在尝试清除包含“ birth_date”列的用户输入数据的电子表格。我遇到的问题是用户间的日期格式范围很广,包括在日期,月份和年份之间没有标记的输入。我很难开发一个足够智能的公式来解释如此广泛的输入。这是一个示例:

1/6/46
7/28/99
11272000
11/28/78

这是我开始的地方:

df['birth_date']=pd.to_datetime(df.birth_date)

这似乎没有超出第一个示例,因为它需要两个月的格式。有人可以帮忙吗?

解决方法

您最好的选择是检查每个输入并给出一致的输出。假设使用“月/日/年”格式,则可以使用此功能

import pandas as pd
import re

def fix_dates(dates):
    new = []
    for date in dates:
        chunks = re.split(r"[\/\.\-]",date)
        if len(chunks) == 3:
            m,d,y = map(lambda x: x.zfill(2),chunks)
            y = y[2:] if len(y) == 4 else y
            new.append(f"{m}/{d}/{y}")
        else:
            m = date[:2]
            d = date[2:4]
            y = date[4:]
            y = y[2:] if len(y) == 4 else y
            new.append(f"{m}/{d}/{y}")
    return new

inconsistent_dates = '1/6/46 7/28/99 11272000 11/28/78'.split(' ')

pd.to_datetime(pd.Series(fix_dates(inconsistent_dates)))

0   2046-01-06
1   1999-07-28
2   2000-11-27
3   1978-11-28
dtype: datetime64[ns]

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?