如何解决将经tesseract OCR训练的数据存储在S3上?
我在Heroku上托管了一个应用程序。我试图从各种PDF中提取文本。我目前正在为此使用tesseract
。
由于Heroku没有提供那么多的存储空间,并且.traineddata
文件很大(需要使用所有文件),是否可以以某种方式在S3上存储tessdata
语言数据?我还没有找到任何解决方案。
我所能找到的就是我可以定义--tessdata-dir PATH
,但这是针对目录的。
解决方法
遗憾的是,如果您无法使所有数据都适合heroku的标准,我不确定Heroku是否适合您的需求。即使您可以使用它,也会对性能造成很大影响。
您最好将Tesseract设置为具有自己服务器的API,然后将所需的内容从heroku发送到该API(或将整个应用移到上方)。取决于应用程序其余部分的大小以及Tesseract大小增长的速度,这可能仅意味着Tesseract可以将其自己的Heroku应用程序具有最小的依赖关系,或者可能意味着将应用程序的该部分移至AWS或其他东西。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。