微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将经tesseract OCR训练的数据存储在S3上?

如何解决将经tesseract OCR训练的数据存储在S3上?

我在Heroku上托管了一个应用程序。我试图从各种PDF中提取文本。我目前正在为此使用tesseract

由于Heroku没有提供那么多的存储空间,并且.traineddata文件很大(需要使用所有文件),是否可以以某种方式在S3上存储tessdata语言数据?我还没有找到任何解决方案。

我所能找到的就是我可以定义--tessdata-dir PATH,但这是针对目录的。

解决方法

遗憾的是,如果您无法使所有数据都适合heroku的标准,我不确定Heroku是否适合您的需求。即使您可以使用它,也会对性能造成很大影响。

您最好将Tesseract设置为具有自己服务器的API,然后将所需的内容从heroku发送到该API(或将整个应用移到上方)。取决于应用程序其余部分的大小以及Tesseract大小增长的速度,这可能仅意味着Tesseract可以将其自己的Heroku应用程序具有最小的依赖关系,或者可能意味着将应用程序的该部分移至AWS或其他东西。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。