微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

提高FR认可的价值质量

如何解决提高FR认可的价值质量

我正在使用 FR v2.0,针对基于图像的 PDF 扫描 是否可以通过训练和改进模型来:

  1. 影响公认价值的质量?

我正在尝试定位具有特定格式的值(字母数字字符串):字母,后跟 x 数字,例如:A12345。经常发生的是像 Q12345 或 O12345 这样的值被识别为 012345,其他示例包括 J -> 1、I -> 1、Z->2。这也发生在非常明确的价值观上。所有训练数据都按照预期格式正确识别。通过包含通常具有错误值的示例来训练模型是很困难的,因为在训练视图中 - 值也是不正确的,并且不可能纠正(并因此改进)模型。

可以改进模型以期待特定格式吗?如果我提供更多示例,我是否可以期望模型开始寻找第一个字符中的字母?

  1. 影响已识别字段的边界框?

经常发生的情况是字段分隔符被识别为字段值的一部分,所以我最终得到类似“A12345”或“A12345|”的值- 也适用于清晰的值,即使分隔符的颜色不同。

如果我改进模型,我能看到边界框的差异吗?

  1. 颜色对价值认知有影响吗?

在许多情况下,我注意到行分隔符(红色)被添加到与值(黑色)相同的边界框或被识别为单独的边界框。在其他情况下,文本与分隔符重叠(打印在表格上的文本)我得到了不正确的读数,例如 S(black) 在 | 顶部(红色)结果是 $,P on |是R等

可以做些什么来提高那里的识别度吗?例如,寻找特定的颜色?还是忽略颜色?

========

根据我目前的经验 - 在边界框或值质量方面,您无能为力 - 无论您如何改进模型,您总是得到相同的结果。您唯一可以改进的是是否会为标签及其置信度分数选择正确的“框” - 而不是“框”及其值

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。