微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用谷歌云进行图像分类、裁剪和 OCR 设置我设想的架构问题

如何解决使用谷歌云进行图像分类、裁剪和 OCR 设置我设想的架构问题

请允许我问一个相当新手的问题。到目前为止,我一直在使用诸如 imagemagickGOCR 之类的本地工具来执行这项工作,但这是相当老式的,我被敦促“转向谷歌云 AI”。

设置

我有一个不同类型的各种文档(如 JPG 和 PDF)的(训练)数据集,我打算通过某些特征(如流行颜色、重复布局)对它们进行分类,例如如invoice type 1invoice type 2not an invoice。在第二步中,我想对每个文档的某些预定义区域进行 OCR 并提取例如发送发票的公司地址和日期。

我设想的架构

  1. 在现代平台即服务 () 中,我已经设置了一个用户界面,我可以在其中上传文件。然后将它们本地存储在具有文件名的目录中(或在 MongoDB 中)。上传时间戳、用户、原始文件名等元信息存储在数据库中。
  2. 然后应将新上传文件提交到应执行分类步骤的谷歌云,并将标签发送回以保存在数据库中。
  3. 文档页面应该自动裁剪,即去除黑色或白色边距,最有可能使用谷歌云。作物的参数应该保存在 DB 中。
  4. 如果是,例如发票,应该对文档的某些区域执行 OCR(再次由谷歌云),例如一个边界框,从页面中间到裁剪页面上 10% 的右边距。 OCR 的结果应再次保留在本地。

问题

我似乎缺少正确的搜索词来弄清楚如何使用谷歌云进行搜索。是否有 google-API(例如 REST),我可以用来上传并返回第 2 步到第 4 步的结果?

解决方法

我认为最好的选择是使用 Document AI (REST API and Libraries)。

使用 Document AI,您可以:

  • 将图像转换为文本
  • 对文档进行分类
  • 分析和提取实体

此外,对于您的用例,我们有一个新的文档 AI 功能,该功能仍处于预览阶段,并且访问权限有限,即 Invoice parser

发票解析器Form parser 类似,但用于发票而不是表单。查看发票解析器页面,您就会明白我所说的预览和访问受限的含义。

AFIK,没有任何用于图像编辑的 GCP 工具。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。