BigQuery分区/集群键向CTE表的传播-性能

如何解决BigQuery分区/集群键向CTE表的传播-性能

我在BigQuery数据库中设置了一个持久表（使用Looker，如果相关的话）。该表既有一个partition_key，也有几个cluster_keys。我按时分区，然后聚集在主键（由GENERATE_UUID组成）上，再加上用户将要搜索的两个主要字段。

然后我有一个CTE表，其余查询将从中提取数据。此CTE选择持久性表的一个子集（具有分区键和集群键的一个），但是此表本身不是持久性的，因此我认为我不能在其中包括分区键和集群键。看起来像这样：

WITH my_table_pre_exclusion AS (--
        SELECT
            *
        FROM
            `server.data.prefix_my_table_persist`
        WHERE
        (
                      ( -- Some filter here
                ) -- AND ... some filter here
        )
    )

我的问题是：当我稍后进行大量涉及分区或群集键字段中的字段的联接时，从该表中提取数据（预先应用了一堆过滤器）是否会损害性能？

跳过此CTE表，直接从我所有下游联接中的持久性表中拉出，然后重新应用过滤器（适用于所有下游组件），是否会更有性能？代码会膨胀很多，但是我做了一些基准测试，并且我认为，这会损害性能，但是我不确定。

是否存在“两全其美”的方法，我不必对大量下游表应用相同的过滤器，但仍然可以获得最佳性能？也许事后将my_table_pre_exclusion内部联接到所有下游表？

解决方法

对此发表自己的答案，尽管我很乐意让其他人详述，因为我只能在此找到非常稀疏文档。

我能够从一位有帮助的BigQuery专家那里获得一些信息：我要问的是一个叫做“谓词下推”的东西，BigQuery最近增加了对它的支持。

我仍在尝试阅读支持的详细信息，但这似乎并不是BigQuery特有的（尽管我确信其优化程序在整体性能中起着巨大的作用）。您可以在这里阅读一些相关信息：https://modern-sql.com/feature/with/performance#predicate-pushdown

最重要的是，如果 BigQuery对我正在运行的查询的支持足够，那么将使用分区/集群有效地执行子查询” 键。无论如何，我从初始发行版中阅读了一些文档，说它可能仅适用于基于日期的分区键，但是也许自此以后就扩展了支持。 “

BigQuery分区/集群键向CTE表的传播-性能

如何解决BigQuery分区/集群键向CTE表的传播-性能

解决方法

相关推荐