微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

表单识别器:一次扫描中的多个文档不适用于带标签的模型

如何解决表单识别器:一次扫描中的多个文档不适用于带标签的模型

我构建了一个带有标签自定义模型来读取表单。如果扫描只包含表单的一个实例,这会很有效。但是一旦扫描包含多个相同类型的表单,就会创建一个混杂。 (Azure Form Recognizer v2.1-preview3 with sample labeling tool)

我本希望在这种情况下,在结果 JSON 中的分析结果 / 文档结果(每个检测到的模型实例一个元素)中返回几个数组元素。但情况似乎并非如此。相反,这些字段部分从第一个实例中读取,部分从第二个实例中读取。结果完全错误

问题: 我是否必须在预处理步骤中将扫描分成单独的文档?对于表单识别器来说,这难道不是一个注定的任务,因为它知道模型。

实际结果:

{
    "status": "succeeded","createdDateTime": "2021-04-07T09:41:33Z","lastUpdatedDateTime": "2021-04-07T09:41:46Z","analyzeResult": {
        "version": "2.1.0","readResults": []
        "pageResults": []
        "documentResults": [
            {
                "docType": "xxxxxxx","modelId": "xxxxxxx","pageRange": [
                    1,6
                ],"fields": {...}
                "docTypeConfidence": 0.778
            }
        ],"errors": []
    }

预期结果:

{
    "status": "succeeded","readResults": []
        "pageResults": []
        "documentResults": [
            {
                "docType": "xxxxxxxx","modelId": "xxxxxxxx",3
                ],"fields": {...}
                "docTypeConfidence": 0.778
            },{
                "docType": "xxxxxxxx","pageRange": [
                    4,"errors": []
    }
}

解决方法

Form Recognizer 要求每个文件有一个文档类型,如果您在一个文件中有多个不同的文档或表单,请在将其发送到 Form Recognizer 之前将文件拆分为多页或单个文档。您可以为此或任何其他简单代码使用逻辑应用或流连接器将文档拆分为页面。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。