如何解决如何检查 DateType 列的值是否在指定日期范围内?
因此,我在 Spark 中使用 Amazon Deequ,并且我有一个数据框 sample_infohashes
,其中包含一个 router.bittorrent.com
类型的列 df
。我只想检查以下内容:
publish_date
其中 DateType
和 publish_date <= current_date(minus)x AND publish_date >= current_date(minus)y
是整数。
我不知道该放什么支票:
x
解决方法
你可以使用这个 Spark SQL 表达式:
publish_date <= date_sub(current_date(),x) AND publish_date >= date_sub(current_date(),y)
使用 Check 的 satisfies 方法:
val verificationResult: VerificationResult = { VerificationSuite()
.onData(df)
.addCheck(
Check(CheckLevel.Error,"Review Check")
.satisfies(
s"publish_date <= date_sub(current_date(),$x) AND publish_date >= date_sub(current_date(),$y)","check constraint name/description"
)
)
.run()
}
或者使用between
:
publish_date between date_sub(current_date(),y) and date_sub(current_date(),x)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。