如何解决使用谷歌云进行图像分类、裁剪和 OCR 设置我设想的架构问题
请允许我问一个相当新手的问题。到目前为止,我一直在使用诸如 imagemagick 或 GOCR 之类的本地工具来执行这项工作,但这是相当老式的,我被敦促“转向谷歌云 AI”。
设置
我有一个不同类型的各种文档(如 JPG 和 PDF)的(训练)数据集,我打算通过某些特征(如流行颜色、重复布局)对它们进行分类,例如如invoice type 1
、invoice type 2
、not an invoice
。在第二步中,我想对每个文档的某些预定义区域进行 OCR 并提取例如发送发票的公司地址和日期。
我设想的架构
- 在现代平台即服务 (pass) 中,我已经设置了一个用户界面,我可以在其中上传新文件。然后将它们本地存储在具有文件名的目录中(或在 MongoDB 中)。上传时间戳、用户、原始文件名等元信息存储在数据库中。
- 然后应将新上传的文件提交到应执行分类步骤的谷歌云,并将标签发送回以保存在数据库中。
- 文档页面应该自动裁剪,即去除黑色或白色边距,最有可能使用谷歌云。作物的参数应该保存在 DB 中。
- 如果是,例如发票,应该对文档的某些区域执行 OCR(再次由谷歌云),例如一个边界框,从页面中间到裁剪页面上 10% 的右边距。 OCR 的结果应再次保留在本地。
问题
我似乎缺少正确的搜索词来弄清楚如何使用谷歌云进行搜索。是否有 google-API(例如 REST),我可以用来上传并返回第 2 步到第 4 步的结果?
解决方法
我认为最好的选择是使用 Document AI (REST API and Libraries)。
使用 Document AI,您可以:
- 将图像转换为文本
- 对文档进行分类
- 分析和提取实体
此外,对于您的用例,我们有一个新的文档 AI 功能,该功能仍处于预览阶段,并且访问权限有限,即 Invoice parser。
发票解析器 与 Form parser 类似,但用于发票而不是表单。查看发票解析器页面,您就会明白我所说的预览和访问受限的含义。
AFIK,没有任何用于图像编辑的 GCP 工具。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。