使用谷歌云进行图像分类、裁剪和 OCR 设置我设想的架构问题

如何解决使用谷歌云进行图像分类、裁剪和 OCR 设置我设想的架构问题

请允许我问一个相当新手的问题。到目前为止，我一直在使用诸如 imagemagick 或 GOCR 之类的本地工具来执行这项工作，但这是相当老式的，我被敦促“转向谷歌云 AI”。

设置

我有一个不同类型的各种文档（如 JPG 和 PDF）的（训练）数据集，我打算通过某些特征（如流行颜色、重复布局）对它们进行分类，例如如invoice type 1、invoice type 2、not an invoice。在第二步中，我想对每个文档的某些预定义区域进行 OCR 并提取例如发送发票的公司地址和日期。

我设想的架构

在现代平台即服务 (pass) 中，我已经设置了一个用户界面，我可以在其中上传新文件。然后将它们本地存储在具有文件名的目录中（或在 MongoDB 中）。上传时间戳、用户、原始文件名等元信息存储在数据库中。
然后应将新上传的文件提交到应执行分类步骤的谷歌云，并将标签发送回以保存在数据库中。
文档页面应该自动裁剪，即去除黑色或白色边距，最有可能使用谷歌云。作物的参数应该保存在 DB 中。
如果是，例如发票，应该对文档的某些区域执行 OCR（再次由谷歌云），例如一个边界框，从页面中间到裁剪页面上 10% 的右边距。 OCR 的结果应再次保留在本地。

问题

我似乎缺少正确的搜索词来弄清楚如何使用谷歌云进行搜索。是否有 google-API（例如 REST），我可以用来上传并返回第 2 步到第 4 步的结果？

解决方法

我认为最好的选择是使用 Document AI (REST API and Libraries)。

使用 Document AI，您可以：

将图像转换为文本
对文档进行分类
分析和提取实体

此外，对于您的用例，我们有一个新的文档 AI 功能，该功能仍处于预览阶段，并且访问权限有限，即 Invoice parser。

发票解析器 与 Form parser 类似，但用于发票而不是表单。查看发票解析器页面，您就会明白我所说的预览和访问受限的含义。

AFIK，没有任何用于图像编辑的 GCP 工具。