如何解决如果目标表不是每日分区的,则Bigquery数据传输失败
我将Bigquery数据传输作业设置为按月划分的目标表。该表已使用以下命令创建:
bq mk --table \
--schema schema.json \
--time_partitioning_field createdAt \
--time_partitioning_type MONTH \
myproject:mydataset.MyTable
已使用Python BQDTS客户端创建了数据传输作业,如下所示:
parent = f"projects/myproject/locations/{location}"
baseparams = {
"file_format": "CSV","ignore_unknown_values": True,"field_delimiter": ",","skip_leading_rows": "0","allow_jagged_rows": True,}
params = Struct()
params_content = baseparams.copy()
params_content[
"data_path_template"
] = f"gs://mybucket/**/*.csv"
params_content["destination_table_name_template"] = "MyTable"
params.update(params_content)
tc_dict = {
"display_name": target_display_name,"destination_dataset_id": "mydataset","data_source_id": "google_cloud_storage","schedule": "every 24 hours","params": params,}
tc = bigquery_datatransfer_v1.types.TransferConfig(**tc_dict)
response = client.create_transfer_config(
request={"parent": parent,"transfer_config": tc}
)
如您所见,作业定义中未指定分区,仅在数据库表中指定了分区,应根据documentation:
分区选项 Cloud Storage和Amazon S3传输可以写入分区或非分区目标表。 BigQuery中有两种类型的表分区:
已分区表:基于列进行分区的表。列类型必须为TIMESTAMP或DATE列。 如果目标表在列上进行了分区,则在创建目标表并指定其架构时会标识该分区列。
此作业已经成功运行了几天,直到上周(最后一次成功运行是2020-11-04)。今天晚上(2020-11-10),作业失败,并显示以下错误消息:
不兼容的表分区规范。目标表存在分区规格为interval(type:MONTH,field:createdAt),但传输目标分区规格为interval(type:DAY,field:createdAt)。请在更新目标表或传输分区规范后重试。
我试图用这种规范重新创建表和作业,并且每次目标表分区类型为MONTH时,的确的确失败。但是,如果分区类型为DAY,则此方法仍然有效。最让我感到困惑的是消息“传输分区规范”,它是一个似乎在文档中不存在的参数。
这是GCP中最近API突破性的变化,尚未记录吗?
解决方法
在GCP团队方面进行了数周的调查和错误修复后,自2020年12月7日以来,此问题已得到解决。这确实是Big Query Transfer服务中的错误。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。