如何解决BigQuery分区/集群键向CTE表的传播-性能
我在BigQuery数据库中设置了一个持久表(使用Looker,如果相关的话)。该表既有一个partition_key
,也有几个cluster_keys
。我按时分区,然后聚集在主键(由GENERATE_UUID
组成)上,再加上用户将要搜索的两个主要字段。
然后我有一个CTE表,其余查询将从中提取数据。此CTE选择持久性表的一个子集(具有分区键和集群键的一个),但是此表本身不是持久性的,因此我认为我不能在其中包括分区键和集群键。看起来像这样:
WITH my_table_pre_exclusion AS (--
SELECT
*
FROM
`server.data.prefix_my_table_persist`
WHERE
(
( -- Some filter here
) -- AND ... some filter here
)
)
我的问题是:当我稍后进行大量涉及分区或群集键字段中的字段的联接时,从该表中提取数据(预先应用了一堆过滤器)是否会损害性能?
跳过此CTE表,直接从我所有下游联接中的持久性表中拉出,然后重新应用过滤器(适用于所有下游组件),是否会更有性能?代码会膨胀很多,但是我做了一些基准测试,并且我认为,这会损害性能,但是我不确定。
是否存在“两全其美”的方法,我不必对大量下游表应用相同的过滤器,但仍然可以获得最佳性能?也许事后将my_table_pre_exclusion
内部联接到所有下游表?
解决方法
对此发表自己的答案,尽管我很乐意让其他人详述,因为我只能在此找到非常稀疏文档。
我能够从一位有帮助的BigQuery专家那里获得一些信息:我要问的是一个叫做“谓词下推”的东西,BigQuery最近增加了对它的支持。
我仍在尝试阅读支持的详细信息,但这似乎并不是BigQuery特有的(尽管我确信其优化程序在整体性能中起着巨大的作用)。您可以在这里阅读一些相关信息:https://modern-sql.com/feature/with/performance#predicate-pushdown
最重要的是,如果 BigQuery对我正在运行的查询的支持足够,那么将使用分区/集群有效地执行子查询” 键。无论如何,我从初始发行版中阅读了一些文档,说它可能仅适用于基于日期的分区键,但是也许自此以后就扩展了支持。 “
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。