如何解决搜索 Azure Blob 存储内容大 Blob,超过 256MB
在我们的应用程序中,我们需要在 blob 的内容中进行搜索。我已经看过 Azure 认知搜索,但 blob 的最大大小是 256MB,我们有比这更大的 blob。我搜索了其他支持索引和搜索巨大 blob 的替代方案,但找不到任何替代方案。有什么我们可以使用的吗?谢谢
解决方法
通常在您有如此大的 blob 的情况下,我认为最好对它们进行预处理。如果您需要异地复制或从备份中快速恢复,这也有一个好处。例如,在 Azure Functions 中,可以触发 Blob 触发器来执行某些代码。在这种情况下,您可以利用 Apache Tika 从文件中提取文本并将它们存储回单独的 blob 容器。然后让认知搜索从那里提取提取的文本。请注意,从这么大的文件中提取这么多文本可能会占用大量计算和内存,因此您的预处理实际上可能需要更高的计算/内存。
代码现在有点旧,但希望这个在 Azure 函数中使用 TikaDotNet 的示例也可能有所帮助:https://github.com/liamca/AzureSearch-AzureFunctions-CognitiveServices/blob/master/ApacheTika/run.csx
请注意,我从未在如此大的文件上尝试过此代码。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。