如何解决从 ADX 导出 1TB 数据
理想情况下,我想设置一个管道,以每小时为间隔将大量数据 (1TB) 从 ADX 导出到 ADLS Gen2。我认为 ADF 复制活动对 ADX 的本机导出功能很差,因此我尝试了按需导出功能(.export
命令)。 ADX 集群和目标 ADLS 帐户在同一区域。但是由于数据的绝对数量/大小,导出总是超时(ADX 设置的 1 小时上限)。我已经尝试了一些选项,但到目前为止,我尝试的所有组合都没有返回令人满意的结果。我使用默认分布(我认为是每个分片)进行导出,但考虑到数据量,我认为我需要充分扩展节点数量。这应该有帮助吗?是否有任何现成的解决方案可以将这种规模的数据从 ADX 导出——也许是某种后端方法?
解决方法
没错,单个导出命令限制为 1 小时,您不能增加此限制。建议将您的数据拆分为多个导出命令,以便每个命令导出数据的一个子集(您可以按 ingestion_time()
进行分区)。如果您同时运行多个这样的导出,您可能会达到存储限制(取决于每个查询将覆盖的分片数量),因此建议使用多个存储帐户。当您为单个导出命令提供多个帐户时,ADX 将在它们之间分配负载。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。