将经tesseract OCR训练的数据存储在S3上？

如何解决将经tesseract OCR训练的数据存储在S3上？

我在Heroku上托管了一个应用程序。我试图从各种PDF中提取文本。我目前正在为此使用tesseract。

由于Heroku没有提供那么多的存储空间，并且.traineddata文件很大（需要使用所有文件），是否可以以某种方式在S3上存储tessdata语言数据？我还没有找到任何解决方案。

我所能找到的就是我可以定义--tessdata-dir PATH，但这是针对目录的。

解决方法

遗憾的是，如果您无法使所有数据都适合heroku的标准，我不确定Heroku是否适合您的需求。即使您可以使用它，也会对性能造成很大影响。

您最好将Tesseract设置为具有自己服务器的API，然后将所需的内容从heroku发送到该API（或将整个应用移到上方）。取决于应用程序其余部分的大小以及Tesseract大小增长的速度，这可能仅意味着Tesseract可以将其自己的Heroku应用程序具有最小的依赖关系，或者可能意味着将应用程序的该部分移至AWS或其他东西。