如何解决Tika 服务器返回状态:404
我正在尝试使用 python 设置 Tika 以进行文本提取。我已经安装了 Java runtime jre 1.8.0
,使用 pip install tika==1.23
安装了 tika,从 this link 下载了 tika 服务器 jar 文件,并且如 this page 中所述,我添加了变量 {{1 }} 到系统环境变量。我用命令 TIKA_SERVER_JAR="..tika-server-1.9.jar"
启动了 tika 服务器,我得到了类似下面的内容
java -jar "..tika-server-1.9.jar"
当我在浏览器中打开 C:\Users\Administrator>java -jar "C:\Program Files\Java\tika-server-1.9.jar"
Mar 02,2021 4:29:07 PM org.apache.tika.server.TikaServerCli main
INFO: Starting Apache Tika 1.9 server
Mar 02,2021 4:29:08 PM org.apache.cxf.endpoint.ServerImpl initDestination
INFO: Setting the server's publish address to be http://localhost:9998/
Mar 02,2021 4:29:08 PM org.slf4j.impl.JCLLoggerAdapter info
INFO: jetty-8.y.z-SNAPSHOT
Mar 02,2021 4:29:08 PM org.slf4j.impl.JCLLoggerAdapter info
INFO: Started SelectChannelConnector@localhost:9998
Mar 02,2021 4:29:08 PM org.apache.tika.server.TikaServerCli main
INFO: Started
时,它会向我显示 Tika API 文档。
但是当我尝试使用 python 提取文本时,如下所示。
http://localhost:9998/
tika 无法按预期工作。它引发了如下异常。这是我在控制台上看到的,没有别的。
import tika
from tika import parser
tika.initVM()
text = parser.from_file(r"..somefile.doc")
print(text)
几个月前我曾经成功地将 tika 与 python 一起使用,但我对我现在缺少的东西一无所知。
编辑: 当我运行上面的 python 代码段时,我可以在控制台中看到如下所示的详细信息。
2021-03-02 16:31:03,037 [MainThread ] [WARNI] Tika server returned status: 404
这是我每次运行python脚本提取文本时在控制台上看到的。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。